"Мы представляем фундаментальное открытие, которое бросает вызов нашему пониманию того, как сложные рассуждения возникают в больших языковых моделях" - так нескромно начинается аннотация к свежей статье от 5 февраля 2025 года. Авторы приводят результаты эксперимента, в котором небольшое количество хорошо подобранных задач с ответами может "всколыхнуть и заставить работать" весь "спящий" внутри LLM объем знаний, которые она накопила, перелопатив гигатонны текста. Возможно, данная работа войдет в список обязательных к прочтению статей по теории нейросетей.
Yixin Ye (Соавтор-первый автор), Zhen Huang (Соавтор-первый автор), Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu (автор-корреспондент)
Мы представляем фундаментальное открытие, которое бросает вызов нашему пониманию того, как сложные рассуждения возникают в больших языковых моделях. Общепринятое мнение предполагает, что сложные задачи рассуждений требуют громадного объема данных для обучения (часто > 100 000 примеров). Мы хотим продемонстрировать удивительный феномен: способности к сложным математическим рассуждениям могут быть эффективно вызваны с удивительно малым количеством примеров. Это открытие бросает вызов не только предположению о необходимости огромных объемов данных для обучения, но и распространенному мнению, что контролируемый файнтюнинг (SFT) в основном приводит к запоминанию, а не к обобщению.
Через разносторонние эксперименты мы показываем, как наша модель LIMO демонстрирует беспрецедентную производительность и эффективность в математических рассуждениях. Используя всего 817 тщательно отобранных обучающих образцов, LIMO достигает точности 57,1% на сложном бенчмарке AIME и 94,8% на MATH, улучшая производительность предыдущих сильных моделей на основе SFT с 6,5% до 57,1% на AIME и с 59,2% до 94,8% на MATH, используя при этом для обучения всего 1% от данных, требуемых предыдущими подходами.
Примечательно, что LIMO демонстрирует исключительное обобщение за пределами распределения данных, достигая абсолютного улучшения на 40,5% на 10 различных бенчмарках, превосходя модели, обученные на 100-кратно больших данных. Это прямо бросает вызов преобладающему мнению, что SFT по своей природе якобы приводит к запоминанию, а не к обобщению.
Синтезируя эти новаторские результаты, мы предлагаем Гипотезу Рассуждений "Меньше — значит больше" (LIMO Hypothesis): В базовых моделях, где доменные знания были всесторонне закодированы во время предварительного обучения, сложные способности к рассуждениям могут возникать через минимальные, но точно организованные демонстрации когнитивных процессов.
Эта гипотеза предполагает, что порог вызова сложных рассуждений не ограничен сложностью целевой задачи рассуждений, а определяется двумя ключевыми факторами:
Полнотой закодированной базы знаний модели во время предварительного обучения.
Эффективностью примеров после обучения, которые служат "когнитивными шаблонами", показывающими модели, как эффективно использовать свою существующую базу знаний для решения сложных задач рассуждений.
Для обеспечения воспроизводимости и поддержки будущих исследований в области эффективного использования данных мы выпускаем LIMO как комплексный открытый набор инструментов: https://github.com/GAIR-NLP/LIMO .
Сложные рассуждения долгое время считались одной из самых непростых способностей для привития большим языковым моделям (LLM). Хотя недавние работы показали, что LLM могут быть эффективно адаптированы к предпочтениям пользователей с помощью относительно небольшого количества инструкций (Zhou et al., 2024a), обучение моделей рассуждать — особенно в математике и программировании — широко считается требующим значительно большего количества обучающих примеров (Paster et al., 2023; Yue et al., 2024). Это общепринятое мнение проистекает из присущей задачам рассуждений сложности, что требует многошаговой логической дедукции, применения базовых знаний и структурированных путей решения. Результирующая парадигма обычно включает обучение на десятках или сотнях тысяч примеров (Yu et al., 2024; Li et al., 2024b), основываясь на двух фундаментальных предположениях: во-первых, что освоение таких сложных когнитивных процессов требует большого количества контролируемых выводов модели, и во-вторых, что контролируемый файнтюнинг (SFT) приводит в основном к запоминанию, а не к истинному обобщению (Zhang et al., 2024; Xu et al., 2024; Chu et al., 2025).
Хотя этот подход показал успех, он налагает на исследователя значительные вычислительные затраты и бремя сбора большого объема данных.
Мы утверждаем, что существующая парадигма, требующая больших объемов данных, больше не актуальна. Недавние достижения фундаментально изменили понимание того, как LLM в приобретают, организуют и используют знания для рассуждений, что предполагает возможность более эффективного подхода. В частности, два ключевых направления развития, создали условия для фундаментального переосмысления того, как мы подходим к рассуждениям в LLM:
Революция в фундаментальных знаниях: Современные базовые модели теперь включают беспрецедентное количество математического контента во время предварительного обучения (Qwen et al., 2025; Yang et al., 2024; Wang et al., 2024). Например, суммарный объем данных для обучения Llama 2 во всех доменах составил 1,8 трлн токенов (Touvron et al., 2023), в то время как Llama 3 использовала 3,7 трлн токенов только для математических рассуждений (Grattafiori et al., 2024). Это говорит о том, что современные LLM уже могут обладать богатыми математическими знаниями в своем параметрическом пространстве, таким образом, задача приобретения знаний преобразуется в задачу по их извлечению.
Революция в масштабировании вычислений во время вывода: Появление техник, масштабирующих длинные цепочки рассуждений, показало, что эффективные рассуждения требуют значительного вычислительного пространства во время вывода. Недавние работы (OpenAI et al., 2024; Qin et al., 2024; Huang et al., 2024) показали, что предоставление моделям возможности генерировать расширенные цепочки рассуждений значительно улучшает их способность к рассуждениям. По сути, вычисления во время вывода предоставляют критически важное когнитивное пространство, где модели могут систематически распаковывать и применять свои знания, полученные в результате предварительного обучения.
Мы предполагаем, что успешные рассуждения возникают благодаря синергии этих двух факторов: богатых знаний, полученных в предварительном обучении и достаточных вычислительных ресурсов во время вывода. Эти разработки в совокупности дают поразительную возможность:
если модели обладают богатыми знаниями для рассуждений и им предоставлено достаточное вычислительное пространство, то активация их способностей к рассуждениям может потребовать лишь небольшого количества высококачественных обучающих образцов, которые поощряют расширенное обдумывание, а не массивные наборы данных для тонкой настройки.
Опираясь на это понимание, мы предлагаем Гипотезу Рассуждений "Меньше — значит больше" (LIMO Hypothesis). Эта гипотеза определяет два критических фактора, которые определяют порог извлечения сложных рассуждений: (1) латентное наличие предварительных знаний в параметрическом пространстве модели и (2) эффективность минимальных примеров в демонстрации систематических процессов решения проблем, которые поощряют расширенное обдумывание. Критически важное предположение состоит в том, что эффективность выборок для извлечения продвинутых рассуждений не ограничена сложностью целевой задачи рассуждений, а скорее полнотой закодированной базы знаний модели и ее воздействием на обучающие образцы, которые эффективно используют вычислительное пространство во время вывода.
Через всесторонние эксперименты мы демонстрируем, что LIMO достигает точности 57,1% на сложном бенчмарке AIME и 94,8% на MATH, используя всего 817 обучающих образцов, превосходя предыдущие сильные модели на основе SFT, используя всего 1% их данных для обучения. Наиболее примечательно, что эти преимущества обобщаются на разнообразный спектр невиданных ранее сценариев, причем LIMO последовательно превосходит модели, обученные на 100x больше данных, с абсолютным улучшением на 40,5%.
Это открытие имеет глубокие последствия для исследований в области искусственного интеллекта: оно предполагает, что даже способности к сложным рассуждениям (на уровне проводимых соревнований LLM) могут быть эффективно вызваны с помощью минимальных, но тщательно отобранных обучающих образцов.
Фундаментально это указывает на многообещающий технический путь к AGI — любая сложная способность к рассуждениям, независимо от ее сложности, потенциально может быть активирована с минимальными образцами при двух ключевых условиях: (1) достаточные доменные/базовые знания, встроенные во время предварительного обучения, и (2) оптимальные когнитивные цепочки рассуждений для активации.
Это представляет собой не просто аргумент в пользу эффективности данных, но фундаментальное понимание того, как сложные способности к рассуждениям возникают в больших языковых моделях.
Основные достижения этой работы:
Мы устанавливаем гипотезу LIMO, демонстрируя, что сложные способности к рассуждениям могут быть вызваны с помощью неожиданно небольших наборов данных (сотни примеров), используя богатые математические знания в предварительно обученных моделях и детализированные цепочки рассуждений.
Мы предоставляем эмпирические доказательства, бросающие вызов текущим предположениям о законах масштабирования в задачах рассуждений, показывая, что преимущества устойчиво обобщаются на проблемы за пределами распределения данных, что указывает на приобретение подлинных способностей к рассуждениям, а не поверхностного сопоставления шаблонов.
Мы определяем критические факторы для эффективного извлечения рассуждений, особенно синергию между предварительно обученными базами знаний и масштабированием вычислений во время тестирования, предоставляя понимание того, как эти достижения могут быть объединены для достижения превосходной производительности в рассуждениях с минимальными данными для файнтюнинга.
Мы выкладываем в открытый доступ комплексный набор инструментов, включая наши тонко настроенные модели, пайплайны для оценки, код обучения и тщательно отобранные наборы данных с различными уровнями качества. Это позволяет систематически исследовать эффективность данных в сложных рассуждениях и способствует воспроизводимости наших результатов, предоставляя ценные ресурсы для будущих исследований в этом направлении.
Таблица 1: Сравнительный анализ: Феномен "Меньше — значит больше" в языковых моделях
Аспект | Общее согласование вывода (LIMA) | Сложные рассуждения (LIMO) |
Основная способность | Адаптация формата и стиля ответов для общего взаимодействия | Многошаговый логический вывод и сложные когнитивные рассуждения |
Фундамент знаний | • Достаточно общего текстового корпуса | • Разнообразные парадигмы рассуждений и подходы к решению проблем |
• Паттерны социального взаимодействия | • Богатый контекст для исследования альтернативных решений | |
• Базовые знания о мире | • Глубокие концептуальные связи между доменами знаний | |
Требования к вычислениям | • Достаточно генерации фиксированной длины | • Масштабируемые вычисления во время вывода |
• Достаточно однопроходной обработки | • Требуется поддержка расширенных цепочек рассуждений | |
• Приемлемо ограниченное окно контекста | • Необходимо большое когнитивное пространство | |
Исторические предпосылки | Появилось в 2023 году, требовало только: | Появилось в 2025 году, потребовало конвергенции: |
• Базовые модели с общими знаниями | • Продвинутые архитектуры для рассуждений | |
• Базовые техники инженерии промптов | • Революция в масштабировании вычислений во время вывода | |
Качество обучающих данных | Дизайн вопросов: | Дизайн вопросов: |
– Типичные сценарии взаимодействия | – Высокосложные задачи, стимулирующие сложные рассуждения | |
– Стандартное разнообразие задач | – Задачи, отклоняющиеся от распределения обучающих данных | |
– Базовое следование инструкциям | – Задачи, требующие интеграции знаний из разных доменов | |
Качество решений: | Качество решений: | |
– Четкий стиль коммуникации | – Оптимальная структура с адаптивным разбиением шагов | |
– Согласованность формата | – Стратегическое когнитивное структурирование для рассуждений | |
– Подходящий тон | – Тщательная проверка на протяжении всего решения |
Появление LIMO представляет собой смену парадигмы в том, как мы концептуализируем и активируем в LLM сложные способности к рассуждениям. В этом разделе рассматриваются два ключевых сравнения, которые проливают свет на фундаментальную природу этого прогресса: во-первых, сравнение LIMO с LIMA для понимания того, как принципы "Меньше — значит больше" распространяются от общего согласования вывода модели до сложных рассуждений; и во-вторых, сравнение LIMO с подходами масштабирования на основе обучения с подкреплением (RL), чтобы выделить различные философские перспективы развития способностей к рассуждениям. Используя этот анализ, мы стремимся установить более глубокое понимание того, как сложные когнитивные способности возникают в языковых моделях и какие условия позволяют реализовать их эффективную активацию.
Появление феномена "Меньше — значит больше" в LLM представляет собой фундаментальный сдвиг в нашем понимании того, как сложные способности модели могут быть реализованы с минимальными данными. В то время как LIMA (Zhou et al., 2024a) впервые продемонстрировала этот феномен в контексте общего согласования вывода модели, распространение этого принципа на сложные математические рассуждения представляет уникальные требования и вызовы. В этом разделе исследуются ключевые разработки, которые делают возможным принцип "Меньше — значит больше" для рассуждений, анализируются существенные различия между сценариями согласования вывода модели и рассуждений модели, а также предоставляются инсайты об условиях, необходимых для эффективной активации способностей в больших языковых моделях.
Революция в фундаменте знаний
В течение последних двух лет мы стали свидетелями трансформации понимания того, как языковые модели приобретают и организуют математические знания. В то время как LIMA могла полагаться на общие текстовые корпуса для согласования вывода, успех LIMO основывается на богатом математическом контенте, который теперь встроен в современные базовые модели через специализированное предварительное обучение (Wang et al., 2024). Этот специализированный фундамент знаний служит предпосылкой для эффективной активации способностей к рассуждениям.
Революция в вычислительных возможностях
Ключевое различие между LIMA и LIMO заключается в их вычислительных требованиях. В то время как задачи согласования вывода LIMA могли быть выполнены с помощью генерации текста фиксированной длины и однопроходной обработки, задачи рассуждений LIMO требуют обширного вычислительного пространства для многошагового обдумывания. Появление техник масштабирования вычислений во время вывода (OpenAI et al., 2024; Qin et al., 2024) предоставило необходимое "когнитивное пространство", где модели могут систематически распаковывать и применять свои знания, полученные при предварительном обучении.
Синергетическая конвергенция
Время открытия LIMO отражает конвергенцию этих двух революций. Двухлетний разрыв между LIMA и LIMO представляет собой не просто время, необходимое для улучшения предварительно обученных моделей, но и необходимое ожидание прорывов в вычислениях во время вывода. Эта конвергенция делает возможным феномен, который мы называем Порогом извлечения рассуждений: когда модели обладают как богатыми доменными знаниями, так и достаточным вычислительным пространством, сложные способности к рассуждениям могут быть активированы с помощью минимальных, но точных демонстраций таких рассуждений.
Последствия для будущих исследований
Этот сравнительный анализ раскрывает идею "Меньше — значит больше" не просто как аргумент в пользу использования меньшего количества данных, но как фундаментальный принцип, управляющий эффективным извлечением способностей моделей. Успех LIMO демонстрирует, что когда основные предпосылки (фундамент знаний и вычислительная структура) выполнены, сложные способности могут быть вызваны с замечательной эффективностью. Этот инсайт предполагает новое направление исследований: систематическое определение предпосылок и оптимальных условий активации для различных способностей.
Далее необходимо исследовать, возможно ли достичь аналогичной эффективности в реализации других продвинутых способностей (например, планирование, креативное решение проблем), как только будут установлены соответствующие им знания и вычислительные основы. Таким образом, принцип "Меньше — значит больше" служит как теоретической основой для понимания возникновения способностей, так и практическим руководством для достижения эффективного развития способностей в различных областях.
Таблица 2: Сравнительный анализ подходов LIMO и масштабирования RL
Аспект | Масштабирование RL (например, o1, R1) | LIMO |
---|---|---|
Основной принцип | Реализация общего принципа: поиск оптимальных траекторий рассуждений через RL | Фундаментальный принцип: способности к рассуждениям существуют и нуждаются в активации через высококачественные траектории рассуждений |
Природа решения | Обнаружение траекторий рассуждений через обширное исследование на основе RL | Прямое построение высококачественных траекторий рассуждений на основе когнитивного понимания |
Основной вызов | Как эффективно искать эффективные траектории рассуждений в большом пространстве решений | Как определить и построить оптимальные траектории рассуждений, которые активируют существующие способности |
Методология | Неявное обнаружение траекторий через крупномасштабную оптимизацию RL | Явное проектирование траекторий через когнитивные шаблоны |
Стратегия поиска | Широкое исследование пространства решений с использованием вычислительных ресурсов | Целевое исследование, направляемое когнитивными принципами |
Эффективность использования ресурсов | Ресурсоемкий процесс поиска | Ресурсоэффективное прямое построение |
Обобщение | Через обширное сэмплирование пространства траекторий | Через понимание фундаментальных паттернов рассуждений |
Появление двух различных подходов к развитию способностей к рассуждениям в больших языковых моделях (масштабирование RL и LIMO) представляет фундаментальное расхождение в том, как мы понимаем и улучшаем интеллект моделей. Масштабирование RL, примером которого являются работы, такие как o1 (OpenAI, 2024) и DeepSeek-R1 (Guo et al., 2025), подходит к задаче с точки зрения инженерной оптимизации. Оно предполагает, что способности к рассуждениям необходимо интенсивно обучать в моделях через крупномасштабное обучение с подкреплением (RL). Хотя этот подход эффективен, он по сути рассматривает RL как механизм широкого поиска для обнаружения эффективных паттернов рассуждений с использованием огромных вычислительных ресурсов.
В отличие от этого LIMO предлагает более фундаментальную перспективу: способности к рассуждениям уже скрыты в предварительно обученных моделях, они заложены уже на этапе предварительного обучения.
Ключевой вызов смещается с "обучения" на "извлечение" — поиск точных когнитивных шаблонов, которые могут активировать эти врожденные способности.
С этой точки зрения, подходы масштабирования RL, такие как DeepSeek-R1, можно рассматривать как конкретные реализации этого принципа, использующие обучение с подкреплением как механизм поиска таких траекторий. Хотя оба подхода в конечном итоге стремятся к высококачественным решениям для рассуждений, LIMO предлагает более принципиальный и прямой путь через явное проектирование траекторий, в то время как масштабирование RL обнаруживает эти траектории через обширное вычислительное исследование. Это изменение подхода предполагает, что различные методы, включая RL, экспертный дизайн или гибридные подходы, могут быть поняты и оценены в рамках концепции LIMO как различные стратегии для поиска оптимальных траекторий рассуждений.
Мы формализуем Гипотезу Рассуждений "Меньше — значит больше" (LIMO Hypothesis) следующим образом:
В базовых моделях, где доменные знания были всесторонне закодированы во время предварительного обучения, сложные способности к рассуждениям могут возникать через минимальные, но точно организованные демонстрации когнитивных процессов.
Эта гипотеза основывается на двух фундаментальных предпосылках:
Латентное наличие предварительных знаний в параметрическом пространстве модели.
Качество цепочек рассуждений, которые точно разбивают сложные проблемы на детализированные, логические шаги, делая когнитивный процесс явным и отслеживаемым.
Для проверки этой гипотезы мы предлагаем систематический подход к созданию высококачественного, минимального набора данных, который может эффективно активировать врожденные способности модели к рассуждениям.
В этой статье мы сосредоточимся на задаче рассуждений с объективно проверяемыми ответами. Для заданного вопроса , где Q представляет пространство задач для рассуждения, цель состоит в том, чтобы сгенерировать ответ
и цепочку рассуждений
.
Мы определяем цепочку рассуждений r как последовательность промежуточных шагов , где каждый шаг
представляет собой логический вывод, который связывает вопрос с конечным ответом.
Формально процесс рассуждений можно представить как функцию :
Таким образом, качество результирующего набора данных определяется двумя фундаментальными, но многогранными компонентами:
Качество вопросов , которое включает такие факторы, как разнообразие подходов к решению задач, соответствующий уровень сложности для проверки способностей модели и широта охватываемых областей знаний.
Качество решений , которое включает такие аспекты, как обучающая ценность, логическая согласованность и методологическая строгость.
Вопросы должны быть разработаны так, чтобы поощрять сложные паттерны рассуждений и интеграцию знаний, а решения должны демонстрировать четкую логическую цепочку и служить эффективными примерами для обучения. Эти взаимосвязанные аспекты качества, среди прочего, направляют наш систематический процесс курирования (оценки, фильтрации) данных, подробно описанный в следующих разделах.
Наш процесс курирования данных сосредоточен на создании высококачественного набора данных , где
намеренно остается небольшим, чтобы подтвердить нашу гипотезу LIMO.
Мы предполагаем, что качественные вопросы должны естественным образом вызывать расширенные процессы рассуждений. Наши критерии выбора следующие:
Уровень сложности: Мы отдаем приоритет сложным задачам, которые стимулируют создание сложных цепочек рассуждений, разнообразных мыслительных процессов и интеграцию знаний, позволяя LLM эффективно использовать предварительно обученные знания для качественного вывода.
Общность: Задачи, которые отклоняются от распределения обучающих данных модели, могут лучше проверять ее фиксированные шаблоны мышления, поощряя исследование новых подходов к рассуждениям и расширяя пространство поиска выводов.
Разнообразие знаний: Выбранные задачи должны охватывать различные математические области и концепции, требуя от модели интеграции и связи удаленных знаний в процессе решения задач.
Для эффективной реализации этих критериев мы сначала собрали обширный пул кандидатов из различных авторитетных наборов данных:
NuminaMath-CoT, содержащий тщательно аннотированные задачи от уровня средней школы до продвинутых соревнований.
Задачи исторических экзаменов AIME, известные своей чрезвычайной сложностью и интеграцией задач из различных математических областей.
MATH (Hendrycks et al., 2021), включающий задачи из престижных математических соревнований.
Другие источники математических задач.
К этому богатому начальному набору мы применили системный многоэтапный процесс фильтрации. Начав с выборки из десятков миллионов задач, мы сначала применили базовый фильтр сложности с помощью модели Qwen2.5-Math-7B-Instruct (Yang et al., 2024), исключая задачи, которые эта модель могла решить правильно за несколько попыток. Это помогло установить предварительный порог сложности.
Затем оставшиеся задачи были подвергнуты более строгой оценке с использованием современных моделей рассуждений, включая R1, DeepSeek-R1-Distill-Qwen-32B (Guo et al., 2025) и модели из работы Huang et al. (2024), оставляя только те задачи, где даже эти модели показывали успешность ниже определенного порога после нескольких итераций. Наконец, для поддержания разнообразия мы использовали стратегические методы выборки, балансируя степень представленности различных математических областей и уровней сложности, но избегая концептуальной избыточности.
Этот тщательный процесс отбора в итоге дал 817 тщательно отобранных задач из начального пула десятков миллионов кандидатов. Выбранные задачи соответствуют нашим строгим критериям качества и охватывают широкий спектр математических вызовов.
Помимо качественных вопросов/задач, качество приведенных решений этих задач играет ключевую роль в обучении. Для курирования качественных решений мы приняли комплексную стратегию отбора. Мы начали с сбора официальных решений для задач, где они были доступны, дополненных решениями, написанными экспертами-людьми и специалистами по ИИ. Кроме того, мы использовали современные модели рассуждений, такие как DeepSeek R1, DeepSeek-R1-Distill-Qwen-32B (Guo et al., 2025) и Qwen2.5-32b-Instruct, для генерации разнообразных подходов к решению.
Следуя методологии, предложенной в O1-Journey-Part2 (Huang et al., 2024), мы также использовали техники самообучения на основе Qwen2.5-32b-Instruct для создания дополнительных вариантов моделей, которые затем использовались для генерации дополнительных ответов на задачи. Эти ответы были отфильтрованы по правильности ответов, чтобы создать базовую коллекцию валидных решений.
Затем авторы провели всесторонний анализ этих отфильтрованных решений через совместное изучение. В результате мы выделили несколько ключевых характеристик, которые отличают высококачественные цепочки рассуждений:
Оптимальная структурная организация: Решение демонстрирует четкую и хорошо организованную структуру с адаптивной последовательностью шагов. Особенно важно, что оно выделяет больше токенов и деталей на ключевых этапах рассуждений, сохраняя краткость для простых шагов.
Эффективное когнитивное структурирование: Высококачественные решения обеспечивают стратегическую образовательную поддержку, постепенно формируя понимание через тщательно структурированные объяснения.
Тщательная проверка: Высококачественные решения включают частые шаги проверки на протяжении всего процесса рассуждений, такие как проверка промежуточных результатов и подтверждение логической согласованности.
На основе этих характеристик мы разработали гибридный подход, сочетающий правило-ориентированную фильтрацию и курирование с помощью LLM, чтобы выбрать высококачественные решения для каждой задачи. Этот систематический процесс гарантирует, что каждое выбранное решение соответствует нашим критериям качества, сохраняя согласованность в наборе данных.
Результирующий набор данных состоит из тщательно отобранных троек
, где каждая цепочка рассуждений
удовлетворяет нашим критериям качества. Сохраняя эти строгие стандарты при ограниченном размере датасета
, мы стремимся продемонстрировать, что высококачественные демонстрации решений/размышлений, а не большой объем данных, являются ключом к активации сложных способностей к рассуждениям.
Основываясь на принципе "Меньше — значит больше", модель с обширными знаниями для рассуждений, полученными в ходе предварительного обучения, и способностью выполнять длинные цепочки рассуждений во время тестирования, может развить устойчивые способности к рассуждениям. После обучения на всего нескольких сотнях примеров данных для контролируемого файнтюнинга (SFT), модель учится интегрировать мета-рассуждения в связную цепочку рассуждений.
Мы проводим тонкую настройку модели Qwen2.5-32B-Instruct с использованием контролируемой тонкой настройки на нашем наборе данных LIMO. Процесс обучения включает полную тонкую настройку параметров с оптимизацией DeepSpeed ZeRO-3 (Rajbhandari et al., 2020) и FlashAttention-2 (Dao, 2023), с ограничением длины последовательности в 16 384 токена.
Оценка в рамках домена
Для всесторонней оценки производительности моделей в различных задачах рассуждений мы разработали фреймворк оценки, включающий как традиционные, так и новые бенчмарки. Наш основной набор для оценки включает несколько известных математических соревнований и бенчмарков:
American Invitational Mathematics Examination (AIME24)
MATH500 (Hendrycks et al., 2021)
American Mathematics Competitions (AMC23)
Оценка за пределами распределения данных (Out-of-Distribution, OOD)
Для тщательной оценки производительности моделей на задачах, выходящих за пределы распределения обучающих данных, мы тщательно отобрали бенчмарки, которые отличаются от наших обучающих данных по различным аспектам. Эти бенчмарки можно разделить на три группы:
Разнообразные математические соревнования: Мы выбрали OlympiadBench (He et al., 2024), который представляет собой отдельное распределение математических задач для проверки OOD-производительности моделей.
Новые многоязычные бенчмарки: Чтобы минимизировать загрязнение данных, мы создали несколько бенчмарков, используя задачи из самых последних экзаменов:
- CHMath из Китайского математического соревнования для старшеклассников 2024 года,
- Gaokao из Национального вступительного экзамена Китая 2024 года,
- Kaoyan из вступительных экзаменов в аспирантуру Китая,
- GradeSchool, наш новый бенчмарк для задач по математике начальной школы.
Все задачи в этих бенчмарках написаны на китайском языке, в то время как наши обучающие данные не содержат задач на китайском. Это добавляет дополнительное измерение OOD, оценивая не только способность модели обобщать задачи из разных распределений, но и ее способность к рассуждениям на незнакомых языках.
Многодисциплинарные бенчмарки: Для оценки более широких возможностей обобщения за пределами математики (нашей обучающей области) мы включили:
- Minerva (Lewkowycz et al., 2022), который включает задачи уровня бакалавриата по STEM.
- GPQA (Rein et al., 2023), который оценивает способности к рассуждениям в различных дисциплинах и когнитивных уровнях.
Метрики производительности
Мы оцениваем производительность с использованием метрики pass@1 на всех наших бенчмарках. Все оценки проводятся в условиях Zero-shot Chain-of-Thought (CoT), чтобы лучше оценить способности модели к рассуждениям. Для бенчмарков, включая MATH500, OlympiadBench, Gaokao, Kaoyan, GradeSchool, MinervaMath и GPQA, мы используем простой подход с жадным декодированием и одним образцом для оценки правильности.
Однако для небольших бенчмарков, содержащих менее 50 задач каждый (в частности, AIME24, AMC23 и CHMATH), мы применяем более тщательный протокол оценки, генерируя 16 образцов с температурой 0,7 и рассчитывая несмещенную метрику pass@1, как предложено в Chen et al. (2021).
Для задач, где ответы представляют собой структурированные числовые значения, мы применяем правило-ориентированную оценку для проверки математической эквивалентности. Для более сложных форматов ответов (например, выражений, уравнений или структурированных решений) мы используем оценщик на основе LLM, который был проверен на высокую надежность.
Во всех оценках мы поддерживаем максимальную длину вывода в 32 768 токенов, чтобы минимизировать вероятность усечения вывода и обеспечить полную оценку попыток решения задач. Кроме того, при оценке LIMO мы заметили, что масштабирование во время вывода иногда приводит к повторяющимся паттернам в конце длинных выводов. В таких случаях мы извлекаем наиболее вероятный окончательный ответ из ответа модели для обеспечения точной оценки ее способностей к решению задач.
Мы сравниваем LIMO с набором базовых моделей, включая следующие известные модели:
OpenAI-o1-preview (OpenAI, 2024): крупная языковая модель, демонстрирующая продвинутые способности к математическим рассуждениям в различных сложных задачах.
QwQ-32B-Preview (Team, 2024b): модель, специально разработанная для решения математических задач с сильными способностями к рассуждениям.
Qwen2.5-32B-Instruct: наша базовая модель для сравнительного анализа.
Для оценки мы используем API OpenAI для доступа к OpenAI-o1-preview, а для развертывания других моделей с открытыми весами (например, QwQ-32B-Preview) используем VLLM (Kwon et al., 2023). Для обеспечения честного сравнения все модели следуют одинаковому протоколу оценки с идентичными гиперпараметрами вывода.
Чтобы исследовать влияние эффективности данных для обучения, мы проводим сравнительные эксперименты, используя популярные открытые наборы данных для рассуждений для контролируемой тонкой настройки на нашей базовой модели. Для честного сравнения все эксперименты используют ту же архитектуру LLM, что и LIMO, чтобы различия в производительности были обусловлены исключительно характеристиками обучающих данных.
Мы сравниваем LIMO с двумя крупными наборами данных:
OpenThoughts-114k: синтетический набор данных для рассуждений, содержащий 114 тыс. примеров, охватывающих математику, науку, программирование и головоломки. Решения следуют структурированному формату рассуждений, сгенерированному DeepSeek-R1.
NuminaMath-100k: случайно выбранное подмножество из 100 тыс. примеров из NuminaMath-CoT, включающее математические задачи от китайских школьных упражнений до международных олимпиад. Каждое решение следует формату Chain of Thought (CoT) (Wei et al., 2022).
Эти наборы данных содержат значительно больше примеров, чем обучающий набор LIMO (817 примеров), что позволяет нам изучить взаимосвязь между количеством данных и производительностью модели.
Наши экспериментальные результаты демонстрируют превосходство LIMO как в рамках домена, так и за его пределами, как показано в Таблице 3.
Таблица 3: Сравнение производительности моделей (pass@1) на различных математических бенчмарках
Модели включают современные LLM (OpenAI-o1-preview, QwQ-32B-Preview), нашу базовую модель (Qwen2.5-32B-Instruct) и модели, тонко настроенные на различных наборах данных. Размеры обучающих данных указаны в скобках. Лучшие результаты для каждого бенчмарка выделены жирным шрифтом. Наша модель LIMO (выделена синим) демонстрирует превосходную производительность, несмотря на использование значительно меньшего количества обучающих примеров (817) по сравнению с другими тонко настроенными моделями (более 100 тыс.).
Набор данных | OpenAI-o1-preview | Qwen2.5-32B-Instruct | QwQ-32B-preview | OpenThoughts (114k) | NuminaMath (100k) | LIMO (ours, 817) |
В рамках домена | ||||||
AIME24 | 44.6 | 16.5 | 50.0 | 50.2 | 6.5 | 57.1 |
MATH500 | 85.5 | 79.4 | 89.8 | 80.6 | 59.2 | 94.8 |
AMC23 | 81.8 | 64.0 | 83.6 | 80.5 | 40.6 | 92.0 |
За пределами домена | ||||||
OlympiadBench | 52.1 | 45.3 | 58.5 | 56.3 | 36.7 | 66.8 |
CHMath | 50.0 | 27.3 | 68.5 | 74.1 | 11.2 | 75.4 |
Gaokao | 62.1 | 72.1 | 80.1 | 63.2 | 49.4 | 81.8 |
Kaoyan | 51.5 | 48.2 | 70.3 | 54.7 | 32.7 | 73.4 |
GradeSchool | 62.8 | 56.7 | 63.8 | 39.0 | 36.2 | 76.2 |
Minerva | 47.1 | 41.2 | 39.0 | 41.1 | 24.6 | 44.9 |
GPQA | 73.3 | 48.0 | 65.1 | 42.9 | 25.8 | 66.7 |
Среднее | 61.1 | 49.9 | 66.9 | 58.3 | 32.3 | 72.8 |
Производительность в рамках домена
На задачах в рамках домена LIMO показывает лучшие результаты на всех бенчмарках. На AIME24 LIMO достигает точности 57,1%, значительно опережая QwQ-32B-Preview (50,0%) и OpenAI-o1-preview (44,6%). На MATH500 LIMO достигает точности 94,8%, превосходя QwQ-32B-Preview (89,8%) и OpenAI-o1-preview (85,5%). На AMC23 LIMO достигает точности 92,0% по сравнению с 83,6% у QwQ-32B-Preview.
Обобщение за пределами домена (Out-of-Distribution, OOD)
LIMO демонстрирует сильные способности к обобщению на разнообразных задачах за пределами домена. На OlympiadBench LIMO достигает точности 66,8%, значительно опережая QwQ-32B-Preview (58,5%) и базовую модель (45,3%). Аналогичные улучшения наблюдаются на других сложных бенчмарках, таких как CHMath (75,4% против 68,5%) и GradeSchool (76,2% против 63,8%). На GPQA LIMO показывает конкурентоспособный результат 66,7%, близкий к результату лидера OpenAI-o1-preview (73,3%).
Сравнение с крупными наборами данных
Наши эксперименты показывают, что, несмотря на больший объем данных, оба базовых набора данных показывают худшие результаты по сравнению с LIMO. NuminaMath-100k демонстрирует значительное снижение производительности (32,3% против 49,9% у базовой модели) из-за плохого отбора цепочек рассуждений, а OpenThoughts-114k показывает результаты 58,3%, вероятно, из-за нецелевого выбора задач. В то же время тщательно отобранные 817 задач LIMO обеспечивают превосходную производительность (72,8%), демонстрируя, что целевой отбор и высококачественные аннотации более важны, чем объем данных для развития устойчивых способностей к рассуждениям.
Общая производительность
LIMO достигает наивысшей средней производительности 72,1% на всех бенчмарках, значительно опережая OpenAI-o1-preview (67,8%), QwQ-32B-Preview (66,4%) и другие базовые модели. Это всесторонняя оценка демонстрирует, что тщательно отобранный подход к обучению LIMO с использованием всего 817 примеров может превзойти модели, обученные на наборах данных, которые на порядки больше.
Чтобы глубже понять, почему подход "Меньше — значит больше" дает такие впечатляющие результаты, мы исследуем качество цепочек рассуждений (CoT). Возникает фундаментальный вопрос: какие характеристики определяют высококачественную цепочку рассуждений, которая приводит к превосходной производительности модели? Для этого мы провели контролируемое сравнительное исследование, изучая, как решения разного качества для одних и тех же задач влияют на производительность моделей, обученных на них.
Настройка эксперимента
Для этого анализа мы выбрали 500 задач из набора данных LIMO. Выбор был основан на пересечении задач, для которых модели, используемые в отбраковке, показали различия в производительности, и задач с соответствующими аннотированными человеком решениями, чтобы обеспечить согласованность сравнений. Для этих 500 задач мы собрали и классифицировали решения по пяти уровням качества на основе нашей комплексной системы оценки. Эти решения были получены из различных источников, включая экспертов-людей, специалистов по ИИ, а также ответы, сгенерированные моделями. Решения были классифицированы строго на основе их качества рассуждений, а не их источника.
Метрика качества
Следуя принципам, изложенным в разделе 3.3.2, мы использовали комплексный подход для классификации цепочек рассуждений на пять уровней качества (L1-L5, где L5 — наивысший). Наша оценка сосредоточена на нескольких ключевых аспектах: насколько хорошо организованы и связаны шаги, правильно ли объяснены важные логические переходы и включает ли решение шаги самопроверки. Используя эти критерии, мы классифицировали решения уровня L5 как те, которые демонстрируют отличную организацию с четкими, хорошо объясненными шагами и тщательной самопроверкой. Решения уровня L4 также хорошо структурированы, но с менее строгой проверкой. Решения уровня L3 показывают достойную организацию, но иногда пропускают объяснение ключевых логических переходов. Решения L2 часто содержали сокращенные рассуждения без особых объяснений, решения L1 обычно просто перечисляли основные шаги с минимальной детализацией и редко включали какую-либо проверку.
Результаты
Результаты нашего обучения (рис. 2) сильно коррелируют с уровнем качества логических цепочек. Модели, обученные на качественных логических цепочках L5, достигли наивысшей производительности как в AIME24, так и в MATH500, продемонстрировав эффективность хорошо структурированных, подробных и самопроверенных рассуждений. Производительность последовательно снижалась с каждым уровнем качества, при этом L4 и L3 показали умеренный успех, в то время как L2 и L1 показали заметно более низкую производительность. Эти результаты эмпирически подтверждают нашу систему оценки качества и подчеркивают ключевую роль в производительности модели играют высококачественные логические цепочки. В частности, мы заметили, что разница в производительности между решениями L5 и L1 была существенной - примерно 15 процентных пунктов для AIME24 и 12 процентных пунктов для MATH500. Это существенное различие говорит о том, что качество логических цепочек играет гораздо более важную роль в работе модели, чем предполагалось ранее, что подчеркивает важность тщательного анализа обучающих данных для включения в них хорошо структурированных решений.
Мы предположили, что более сложные задачи способствуют созданию сложных цепочек рассуждений, разнообразных мыслительных процессов и улучшенной интеграции знаний, что позволяет LLM лучше использовать предварительно обученные знания для качественного вывода. Чтобы проверить эту гипотезу, мы исследовали, как качество вопросов влияет на способности моделей к рассуждениям.
Настройка эксперимента
Мы выбрали три набора задач одинакового размера, но с возрастающей сложностью, и создали для них решения в едином стиле, чтобы сформировать три обучающих набора данных:
Simple-500: 500 простых задач, случайно выбранных из уровней 1 и 2 набора данных MATH.
Complex-500: 500 сложных задач, случайно выбранных из уровней 3, 4 и 5 набора данных MATH.
Advanced-500: 500 продвинутых задач, случайно выбранных из прошлых тестов AIME.
Для подтверждения возрастающей сложности этих наборов мы оценили различные LLM на них, наблюдая снижение точности и увеличение средней длины правильно сгенерированных цепочек рассуждений. Затем мы использовали DeepSeek-R1 для генерации решений (наивысшего качества) для каждого набора задач, которые стали обучающими данными для тонкой настройки модели Qwen2.5-32B-Instruct.
Результаты
Мы оценили все три тонко настроенные модели на бенчмарках AIME2024 и MATH500, чтобы оценить их способности к рассуждениям. Результаты (Рисунок 3) показали следующее:
Модель, обученная на наборе Advanced-500, достигла точности 51,5% на сложном бенчмарке AIME2024, что на 16% выше, чем у моделей, обученных на более простых наборах.
На бенчмарке MATH500 модель, обученная на Advanced-500, достигла точности 91,2%, несмотря на отсутствие данных для обучения в рамках домена.
Эти результаты свидетельствуют о том, что улучшение способностей к рассуждениям за счет увеличения сложности задач обобщается на различные наборы данных.
Ключевые выводы:
Качество цепочек рассуждений играет критическую роль в производительности моделей. Высококачественные, хорошо структурированные решения (уровень L5) значительно улучшают результаты.
Сложность задач также оказывает существенное влияние. Модели, обученные на более сложных задачах, демонстрируют лучшую производительность на сложных бенчмарках, таких как AIME2024 и MATH500.
Эти результаты подтверждают важность тщательного отбора как задач, так и решений для обучения моделей, что является ключевым принципом подхода LIMO.
Основываясь на нашей гипотезе LIMO, которая подчеркивает важность латентных предварительных знаний в параметрическом пространстве модели, мы исследуем, как различные данные предварительного обучения влияют на способность модели использовать минимальные примеры для математических рассуждений. Это позволяет нам оценить первый ключевой фактор нашей гипотезы: роль предварительно полученных при обучении знаний в активации сложных способностей к рассуждениям.
Настройка эксперимента
Чтобы изолировать влияние предварительного обучения, контролируя архитектуру модели и процедуры тонкой настройки, мы провели эксперименты с двумя 32B-параметрическими вариантами семейства моделей Qwen:
Qwen1.5-32B-Chat (Team, 2024a)
Qwen2.5-32B-Instruct (базовая модель LIMO).
Обе модели имеют одинаковую архитектуру и количество параметров, но Qwen2.5 демонстрирует значительные улучшения в качестве данных предварительного обучения, особенно в математических и программных данных, по сравнению с предшественником. Мы провели тонкую настройку обеих моделей на идентичных наборах данных LIMO и оценили их производительность на бенчмарках AIME2024 и MATH500.
Результаты
Наши эксперименты показали, что выбор предварительно обученной модели значительно влияет на производительность в задачах рассуждений (Рисунок 4). LIMO, построенная на Qwen2.5-32B-Instruct, значительно превосходит своего предшественника на обоих бенчмарках:
На сложном тесте AIME2024 LIMO достигает точности 57,1%, что на 47,1 процентных пункта выше, чем у Qwen1.5-32B-Instruct (10,0%).
На MATH500 LIMO демонстрирует исключительную производительность с точностью 94,8%, превосходя Qwen1.5-32B-Instruct на 34,4 процентных пункта.
Эти значительные улучшения свидетельствуют о том, что улучшенное предварительное обучение в Qwen2.5 создает более прочную основу для математических рассуждений. Результаты согласуются с нашей гипотезой LIMO, указывая на то, что более богатые знания в параметрическом пространстве модели позволяют более эффективно использовать минимальные примеры во время файнтюнинга модели.
На Рисунке 5 сравниваются ответы, сгенерированные Qwen2.5-32B-Instruct, DeepSeek-R1 и LIMO.
LIMO демонстрирует способности и поведение, сопоставимые с DeepSeek-R1, несмотря на использование минимальных данных и вычислительных ресурсов (всего 817 обучающих примеров). В частности, LIMO показывает сильные способности к саморефлексии и генерации длинных цепочек рассуждений. Например, модель проверяет свои собственные утверждения:
"Подождите, 24 минуты — это 0,4 часа? Подождите, нет. Подождите, 60 минут — это 1 час, так что 24 минуты — это 24/60, то есть 0,4 часа".
"Но давайте я проверю еще раз. Возможно, я допустил ошибку в расчетах".
Кроме того, LIMO учится выделять дополнительные токены (вычислительные ресурсы) для детального решения сложных уравнений, чтобы избежать ошибок.
В отличие от этого, базовая модель Qwen2.5-32B-Instruct демонстрирует ограничения в процессе рассуждений: она не может исправить неточные утверждения и не проверяет свои расчеты.
Ключевые выводы:
Качество предварительного обучения играет критическую роль в способности модели к сложным рассуждениям. Модели с более качественными предварительно обученными данными (например, Qwen2.5) показывают значительно лучшие результаты.
LIMO демонстрирует способность к саморефлексии и длинным цепочкам рассуждений, что подтверждает эффективность подхода "Меньше — значит больше".
Эти результаты подчеркивают важность как предварительного обучения, так и тщательного отбора данных для тонкой настройки, что является ключевым принципом LIMO.
Решение задачи разными моделями (перевод информации на рис.5)
Задача:
Каждое утро Ая отправляется на 9-километровую прогулку и затем останавливается в кофейне. Когда она идет с постоянной скоростью s км/ч, прогулка занимает у нее 4 часа, включая t минут, проведенных в кофейне. Когда она идет со скоростью s + 2 км/ч, прогулка занимает 2 часа 24 минуты, включая t минут в кофейне. Предположим, Ая идет со скоростью км/ч. Найдите, сколько минут займет прогулка, включая ( t ) минут, проведенных в кофейне.
(х) Qwen2.5-32B-Instruct | (+) DeepSeek-R1 |
Чтобы решить задачу, нам нужно | Хорошо, давайте попробуем разобраться в этой проблеме шаг за шагом. |
(+) LIMO |
Ладно, давайте посмотрим. Итак, каждое утро Ая совершает 9-километровую прогулку, а затем заходит в кафе. Время, которое она тратит на прогулку, включая время, проведенное в кафе, зависит от скорости ее ходьбы. [для краткости опущено...]. Когда она идет немного быстрее, со скоростью s плюс 2 километра в час, общее время составляет 2 часа 24 минуты, что составляет 2 часа 24 минуты, то есть 2,4 часа? |
Рисунок 5: Сравнение ответов, сгенерированных Qwen2.5-32B-Instruct, DeepSeek-R1 и LIMO
Результаты сравнения ответов, сгенерированных моделями Qwen2.5-32B-Instruct, DeepSeek-R1 и LIMO, подтверждают гипотезу LIMO: с минимальным, но высококачественным набором пост-тренировочных примеров модели могут стать сильными решателями задач.
Таблица 4 демонстрирует различия между моделями, обученными на примерах разного качества. Мы наблюдаем общую тенденцию: повышение качества пост-тренировочных примеров приводит к моделям, которые генерируют более длинные ответы с большим количеством строк. Кроме того, модели более высокого качества используют больше саморефлексивных переходов (например, "подождите", "возможно", "может быть", "следовательно"), чтобы выделить дополнительные вычислительные ресурсы для более глубокого анализа.
Объемные данные для обучения стали движущей силой развития способностей к рассуждениям в LLM. На этапе предварительного обучения способность к рассуждениям может быть улучшена за счет релевантных корпусов (Wang et al., 2024; Azerbayev et al., 2024; Paster et al., 2023; Shao et al., 2024). Эти корпусы могут включать учебники, научные статьи и математический код, которые отражают разнообразные когнитивные паттерны, используемые для решения задач.
На этапе пост-тренировки ряд исследований сосредоточен на создании крупномасштабных инструктивных данных для обучения LLM рассуждениям (Yue et al., 2023, 2024; Li et al., 2024a). Это включает масштабирование количества вопросов и их решений. Такой подход обещает значительные улучшения производительности, однако способности к рассуждениям, полученные этим методом, критикуются за нацеленность на запоминание фиксированных паттернов, а не на достижение истинного обобщения (Mirzadeh et al., 2024; Zhang et al., 2024).
Например, Mirzadeh et al. (2024) обнаружили, что LLM демонстрируют заметные различия в ответах на разные формулировки одного и того же вопроса, а их производительность снижается при изменении числовых значений в вопросе. Это вызывает сомнения в способности методов SFT (Chu et al., 2025) к обобщению и в том, могут ли LLM быть истинными решателями задач, а не просто системами извлечения знаний (Kambhampati, 2024).
Вместо масштабирования параметров модели и данных для обучения (Kaplan et al., 2020), недавние работы сосредоточились на исследовании масштабирования во время тестирования (OpenAI, 2024; Snell et al., 2024), то есть увеличения количества токенов для улучшения способностей к рассуждениям.
Это может быть достигнуто за счет:
Параллельного сэмплирования (Brown et al., 2024; Wang et al., 2022; Li et al., 2022).
Символического поиска по дереву (Hao et al., 2023; Chen et al., 2024; Yao et al., 2023).
Кроме того, OpenAI (2024) и Guo et al. (2025) исследуют обучение LLM с использованием обучения с подкреплением для генерации длинных цепочек рассуждений (CoT), которые часто включают саморефлексию, проверку и backtracking — процессы, которые люди используют при решении сложных задач. Наша работа демонстрирует, что эти методы обладают качественными характеристиками, позволяющими выявить присущие LLM способности к логическому мышлению.
Таблица 4: Статистический анализ моделей, обученных на примерах данных разного качества
В таблице представлены три ключевых метрики:
Среднее количество токенов на ответ.
Среднее количество строк на ответ.
Часто встречающиеся ключевые слова в ответах моделей.
Ключевые слова, связанные с переходами в рассуждениях и неопределенностью, выделены жирным шрифтом. Общие стоп-слова (например, "a", "the") исключены для фокусировки на значимых языковых паттернах.
Уровень качества данных | Среднее количество токенов на ответ | Среднее количество строк на ответ | Топ-10 часто встречающихся ключевых слов (в порядке убывания) |
Уровень 1 | 230 | 9.21 | since, however, number, let, thus, which, get, two, triangle, theta |
Уровень 2 | 444.88 | 50.68 | number, need, times, which, find, list, thus, since, triangle, sum |
Уровень 3 | 4956.11 | 375.60 | perhaps, alternatively, consider, number, wait, which, sides, need, equal, seems |
Уровень 4 | 4726.97 | 354.87 | wait, which, number, perhaps, therefore, let, since, maybe, sides, two |
Уровень 5 | 5290.26 | 239.29 | wait, therefore, which, number, since, lets, two, sides, let, maybe |
Zhou et al. (2024a) демонстрируют, что всего с 1000 тщательно отобранных промптов и ответов модели могут научиться следовать определенным форматам и хорошо обобщать их на новые задачи. Эти результаты подчеркивают важность качества, а не количества данных в процессе согласования. Однако остается неясным, можно ли применить этот подход к задачам рассуждений, учитывая потенциально высокую вычислительную сложность таких задач (Merrill and Sabharwal, 2024; Xiang et al., 2025).
Хотя некоторые работы по рассуждениям подчеркивают важность качества данных для обучения (Zhou et al., 2024b), их количество все еще значительно больше, чем в LIMA. Наша работа расширяет идеологию LIMA на задачи рассуждений, исследуя, что составляет высококачественные вопросы и решения, и демонстрирует, что способности LLM к рассуждениям могут быть улучшены с высокой эффективностью использования данных.
Хотя LIMO демонстрирует впечатляющие успехи в математических рассуждениях с минимальными данными, остается несколько перспективных направлений для дальнейшего изучения.
1. Обобщение на другие домены
Расширение гипотезы LIMO на более широкие области рассуждений представляет собой важный следующий шаг. Хотя наша работа сосредоточена на математических рассуждениях, принципы высококачественных цепочек рассуждений могут быть применимы к научным рассуждениям, логическим выводам и причинно-следственным связям. Понимание того, как эти принципы переносятся между доменами, может выявить универсальные закономерности в эффективных рассуждениях.
2. Теоретические основы
Глубокое теоретическое понимание успеха LIMO также важно. Будущие исследования должны сосредоточиться на формализации взаимосвязи между предварительно обученными знаниями, вычислениями во время вывода и способностями к рассуждениям. Это включает изучение минимального порога знаний для обучения, необходимых для эффективных рассуждений, а также разработку математических моделей для прогнозирования оптимального баланса между качеством и количеством цепочек рассуждений.
3. Автоматизированная оценка
Разработка автоматизированных инструментов для оценки качества цепочек рассуждений представляет собой еще одно важное направление. Текущая ручная оценка качества, хотя и эффективна, требует много времени и сложна для масштабирования. Будущие работы должны быть направлены на создание автоматизированных систем, которые могут оценивать и улучшать качество цепочек рассуждений на основе предложенных нами метрик.
4. Интеграция мультимодальности
Кросс-модальные рассуждения представляют собой захватывающую область для расширения принципов LIMO. Поскольку реальные рассуждения часто включают несколько модальностей, важно исследовать, как визуальная информация и структурированные данные могут улучшить математические способности к рассуждениям.
5. Применение в реальном мире
Применение принципов LIMO к реальным сценариям заслуживает значительного внимания. Будущие исследования должны быть направлены на адаптацию этих подходов к практическим задачам в образовании, научных исследованиях и промышленных приложениях.
6. Связь с когнитивной наукой
Интеграция идей из когнитивной науки может предоставить ценные направления для улучшения. Понимание параллелей между паттернами рассуждений LIMO и когнитивными процессами человека может помочь в разработке более эффективных стратегий рассуждений. Включая изучение того, как различные подходы к построению рассуждений влияют на производительность моделей и их обобщение. Важно включить принципы когнитивной науки в разработку цепочек рассуждений. Такие исследования могли бы не только улучшить системы искусственного интеллекта, но и дать представление о процессах мышления человека. Эти будущие направления в совокупности направлены на углубление нашего понимания эффективного мышления в LLM и расширение их практического применения. Следуя в этом направлении, мы сможем работать над созданием более сложных, эффективных и широко применимых систем мышления, которые лучше удовлетворяют потребности человека в различных областях.
Мы выражаем искреннюю благодарность Yixiu Liu и Yiwei Qin за их ценный вклад в эту исследовательскую работу. Их экспертиза, преданность и дух сотрудничества значительно повысили качество нашего исследования. Их проницательные предложения и техническая помощь были ключевыми для достижения наших исследовательских целей.
Мы также благодарим Haoyang Zou и Xuefeng Li за ценные обсуждения на ранних этапах этой работы. Их взгляды и идеи помогли сформировать основу нашего исследования.
[1] Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, and Sean Welleck. 2024. Llemma: An open language model for mathematics.
[2] Bradley Brown, Jordan Juravsky, Ryan Ehrlich, Ronald Clark, Quoc V. Le, Christopher Re, and Azalia ´ Mirhoseini. 2024. Large language monkeys: Scaling inference compute with repeated sampling.
[3] Guoxin Chen, Minpeng Liao, Chengxi Li, and Kai Fan. 2024. Alphamath almost zero: process supervision without process. ArXiv preprint, abs/2405.03553.
[4] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde De Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
[5] Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, and Yi Ma. 2025. Sft memorizes, rl generalizes: A comparative study of foundation model post-training. [6] Tri Dao. 2023. Flashattention-2: Faster attention with better parallelism and work partitioning. arXiv preprint arXiv:2307.08691.
[7] Aaron Grattafiori, Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Alex Vaughan, Amy Yang, Angela Fan, Anirudh Goyal, Anthony Hartshorn, Aobo Yang, Archi Mitra, Archie Sravankumar, Artem Korenev, Arthur Hinsvark, Arun Rao, Aston Zhang, Aurelien Rodriguez, Austen Gregerson, Ava Spataru, Baptiste Roziere, Bethany Biron, Binh Tang, Bobbie Chern, Charlotte Caucheteux, Chaya Nayak, Chloe Bi, Chris Marra, Chris McConnell, Christian Keller, Christophe Touret, Chunyang Wu, Corinne Wong, Cristian Canton Ferrer, Cyrus Nikolaidis, Damien Allonsius, Daniel Song, Danielle Pintz, Danny Livshits, Danny Wyatt, David Esiobu, Dhruv Choudhary, Dhruv Mahajan, Diego Garcia-Olano, Diego Perino, Dieuwke Hupkes, Egor Lakomkin, Ehab AlBadawy, Elina Lobanova, Emily Dinan, Eric Michael Smith, Filip Radenovic, Francisco Guzman, Frank Zhang, Gabriel Synnaeve, Gabrielle ´ Lee, Georgia Lewis Anderson, Govind Thattai, Graeme Nail, Gregoire Mialon, Guan Pang, Guillem Cucurell, Hailey Nguyen, Hannah Korevaar, Hu Xu, Hugo Touvron, Iliyan Zarov, Imanol Arrieta Ibarra, Isabel Kloumann, Ishan Misra, Ivan Evtimov, Jack Zhang, Jade Copet, Jaewon Lee, Jan Geffert, Jana Vranes, Jason Park, Jay Mahadeokar, Jeet Shah, Jelmer van der Linde, Jennifer Billock, Jenny Hong, Jenya Lee, Jeremy Fu, Jianfeng Chi, Jianyu Huang, Jiawen Liu, Jie Wang, Jiecao Yu, Joanna Bitton, Joe Spisak, Jongsoo Park, Joseph Rocca, Joshua Johnstun, Joshua Saxe, Junteng Jia, Kalyan Vasuden Alwala, Karthik Prasad, Kartikeya Upasani, Kate Plawiak, Ke Li, Kenneth Heafield, Kevin Stone, Khalid El-Arini, Krithika Iyer, Kshitiz Malik, Kuenley Chiu, Kunal Bhalla, Kushal Lakhotia, Lauren Rantala-Yeary, Laurens van der Maaten, Lawrence Chen, Liang Tan, Liz Jenkins, Louis Martin, Lovish Madaan, Lubo Malo, Lukas Blecher, Lukas Landzaat, Luke de Oliveira, Madeline Muzzi, Mahesh Pasupuleti, Mannat Singh, Manohar Paluri, Marcin Kardas, Maria Tsimpoukelli, Mathew Oldham, Mathieu Rita, Maya Pavlova, Melanie Kambadur, Mike Lewis, Min Si, Mitesh Kumar Singh, Mona Hassan, Naman Goyal, Narjes Torabi, Nikolay Bashlykov, Nikolay Bogoychev, Niladri Chatterji, Ning Zhang, Olivier Duchenne, Onur C¸ elebi, Patrick Alrassy, Pengchuan Zhang, Pengwei Li, Petar Vasic, Peter Weng, Prajjwal Bhargava, Pratik Dubal, Praveen Krishnan, Punit Singh Koura, Puxin Xu, Qing He, Qingxiao Dong, Ragavan Srinivasan, Raj Ganapathy, Ramon Calderer, Ricardo Silveira Cabral, Robert Stojnic, Roberta Raileanu, Rohan Maheswari, Rohit Girdhar, Rohit Patel, Romain Sauvestre, Ronnie Polidoro, Roshan Sumbaly, Ross Taylor, Ruan Silva, Rui Hou, Rui Wang, Saghar Hosseini, Sahana Chennabasappa, Sanjay Singh, Sean Bell, Seohyun Sonia Kim, Sergey Edunov, Shaoliang Nie, Sharan Narang, Sharath Raparthy, Sheng Shen, Shengye Wan, Shruti Bhosale, Shun Zhang, Simon Vandenhende, Soumya Batra, Spencer Whitman, Sten Sootla, Stephane Collot, Suchin Gururangan, Sydney Borodinsky, Tamar Herman, Tara Fowler, Tarek Sheasha, Thomas Georgiou, Thomas Scialom, Tobias Speckbacher, Todor Mihaylov, Tong Xiao, Ujjwal Karn, Vedanuj Goswami, Vibhor Gupta, Vignesh Ramanathan, Viktor Kerkez, Vincent Gonguet, Virginie Do, Vish Vogeti, V´ıtor Albiero, Vladan Petrovic, Weiwei Chu, Wenhan Xiong, Wenyin Fu, Whitney Meers, Xavier Martinet, Xiaodong Wang, Xiaofang Wang, Xiaoqing Ellen Tan, Xide Xia, Xinfeng Xie, Xuchao Jia, Xuewei Wang, Yaelle Goldschlag, Yashesh Gaur, Yasmine Babaei, Yi Wen, Yiwen Song, Yuchen Zhang, Yue Li, Yuning Mao, Zacharie Delpierre Coudert, Zheng Yan, Zhengxing Chen, Zoe Papakipos, Aaditya Singh, Aayushi Srivastava, Abha Jain, Adam Kelsey, Adam Shajnfeld, Adithya Gangidi, Adolfo Victoria, Ahuva Goldstand, Ajay Menon, Ajay Sharma, Alex Boesenberg, Alexei Baevski, Allie Feinstein, Amanda Kallet, Amit Sangani, Amos Teo, Anam Yunus, Andrei Lupu, Andres Alvarado, Andrew Caples, Andrew Gu, Andrew Ho, Andrew Poulton, Andrew Ryan, Ankit Ramchandani, Annie Dong, Annie Franco, Anuj Goyal, Aparajita Saraf, Arkabandhu Chowdhury, Ashley Gabriel, Ashwin Bharambe, Assaf Eisenman, Azadeh Yazdan, Beau James, Ben Maurer, Benjamin Leonhardi, Bernie Huang, Beth Loyd, Beto De Paola, Bhargavi Paranjape, Bing Liu, Bo Wu, Boyu Ni, Braden Hancock, Bram Wasti, Brandon Spence, Brani Stojkovic, Brian Gamido, Britt Montalvo, Carl Parker, Carly Burton, Catalina Mejia, Ce Liu, Changhan Wang, Changkyu Kim, Chao Zhou, Chester Hu, Ching-Hsiang Chu, Chris Cai, Chris Tindal, Christoph Feichtenhofer, Cynthia Gao, Damon Civin, Dana Beaty, Daniel Kreymer, Daniel Li, David Adkins, David Xu, Davide Testuggine, Delia David, Devi Parikh, Diana Liskovich, Didem Foss, Dingkang Wang, Duc Le, Dustin Holland, Edward Dowling, Eissa Jamil, Elaine Montgomery, Eleonora Presani, Emily Hahn, Emily Wood, Eric-Tuan Le, Erik Brinkman, Esteban Arcaute, Evan Dunbar, Evan Smothers, Fei Sun, Felix Kreuk, Feng Tian, Filippos Kokkinos, Firat Ozgenel, Francesco Caggioni, Frank Kanayet, Frank Seide, Gabriela Medina Florez, Gabriella Schwarz, Gada Badeer, Georgia Swee, Gil Halpern, Grant Herman, Grigory Sizov, Guangyi, Zhang, Guna Lakshminarayanan, Hakan Inan, Hamid Shojanazeri, Han Zou, Hannah Wang, Hanwen Zha, Haroun Habeeb, Harrison Rudolph, Helen Suk, Henry Aspegren, Hunter Goldman, Hongyuan Zhan, Ibrahim Damlaj, Igor Molybog, Igor Tufanov, Ilias Leontiadis, Irina-Elena Veliche, Itai Gat, Jake Weissman, James Geboski, James Kohli, Janice Lam, Japhet Asher, Jean-Baptiste Gaya, Jeff Marcus, Jeff Tang, Jennifer Chan, Jenny Zhen, Jeremy Reizenstein, Jeremy Teboul, Jessica Zhong, Jian Jin, Jingyi Yang, Joe Cummings, Jon Carvill, Jon Shepard, Jonathan McPhie, Jonathan Torres, Josh Ginsburg, Junjie Wang, Kai Wu, Kam Hou U, Karan Saxena, Kartikay Khandelwal, Katayoun Zand, Kathy Matosich, Kaushik Veeraraghavan, Kelly Michelena, Keqian Li, Kiran Jagadeesh, Kun Huang, Kunal Chawla, Kyle Huang, Lailin Chen, Lakshya Garg, Lavender A, Leandro Silva, Lee Bell, Lei Zhang, Liangpeng Guo, Licheng Yu, Liron Moshkovich, Luca Wehrstedt, Madian Khabsa, Manav Avalani, Manish Bhatt, Martynas Mankus, Matan Hasson, Matthew Lennie, Matthias Reso, Maxim Groshev, Maxim Naumov, Maya Lathi, Meghan Keneally, Miao Liu, Michael L. Seltzer, Michal Valko, Michelle Restrepo, Mihir Patel, Mik Vyatskov, Mikayel Samvelyan, Mike Clark, Mike Macey, Mike Wang, Miquel Jubert Hermoso, Mo Metanat, Mohammad Rastegari, Munish Bansal, Nandhini Santhanam, Natascha Parks, Natasha White, Navyata Bawa, Nayan Singhal, Nick Egebo, Nicolas Usunier, Nikhil Mehta, Nikolay Pavlovich Laptev, Ning Dong, Norman Cheng, Oleg Chernoguz, Olivia Hart, Omkar Salpekar, Ozlem Kalinli, Parkin Kent, Parth Parekh, Paul Saab, Pavan Balaji, Pedro Rittner, Philip Bontrager, Pierre Roux, Piotr Dollar, Polina Zvyagina, Prashant Ratanchandani, Pritish Yuvraj, Qian Liang, Rachad Alao, Rachel Rodriguez, Rafi Ayub, Raghotham Murthy, Raghu Nayani, Rahul Mitra, Rangaprabhu Parthasarathy, Raymond Li, Rebekkah Hogan, Robin Battey, Rocky Wang, Russ Howes, Ruty Rinott, Sachin Mehta, Sachin Siby, Sai Jayesh Bondu, Samyak Datta, Sara Chugh, Sara Hunt, Sargun Dhillon, Sasha Sidorov, Satadru Pan, Saurabh Mahajan, Saurabh Verma, Seiji Yamamoto, Sharadh Ramaswamy, Shaun Lindsay, Shaun Lindsay, Sheng Feng, Shenghao Lin, Shengxin Cindy Zha, Shishir Patil, Shiva Shankar, Shuqiang Zhang, Shuqiang Zhang, Sinong Wang, Sneha Agarwal, Soji Sajuyigbe, Soumith Chintala, Stephanie Max, Stephen Chen, Steve Kehoe, Steve Satterfield, Sudarshan Govindaprasad, Sumit Gupta, Summer Deng, Sungmin Cho, Sunny Virk, Suraj Subramanian, Sy Choudhury, Sydney Goldman, Tal Remez, Tamar Glaser, Tamara Best, Thilo Koehler, Thomas Robinson, Tianhe Li, Tianjun Zhang, Tim Matthews, Timothy Chou, Tzook Shaked, Varun Vontimitta, Victoria Ajayi, Victoria Montanez, Vijai Mohan, Vinay Satish Kumar, Vishal Mangla, Vlad Ionescu, Vlad Poenaru, Vlad Tiberiu Mihailescu, Vladimir Ivanov, Wei Li, Wenchen Wang, Wenwen Jiang, Wes Bouaziz, Will Constable, Xiaocheng Tang, Xiaojian Wu, Xiaolan Wang, Xilun Wu, Xinbo Gao, Yaniv Kleinman, Yanjun Chen, Ye Hu, Ye Jia, Ye Qi, Yenda Li, Yilin Zhang, Ying Zhang, Yossi Adi, Youngjin Nam, Yu, Wang, Yu Zhao, Yuchen Hao, Yundi Qian, Yunlu Li, Yuzi He, Zach Rait, Zachary DeVito, Zef Rosnbrick, Zhaoduo Wen, Zhenyu Yang, Zhiwei Zhao, and Zhiyu Ma. 2024. The llama 3 herd of models.
[8] Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, et al. 2025. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948.
[9] Shibo Hao, Yi Gu, Haodi Ma, Joshua Jiahua Hong, Zhen Wang, Daisy Zhe Wang, and Zhiting Hu. 2023. Reasoning with language model is planning with world model.
[10] Chaoqun He, Renjie Luo, Yuzhuo Bai, Shengding Hu, Zhen Leng Thai, Junhao Shen, Jinyi Hu, Xu Han, Yujie Huang, Yuxiang Zhang, et al. 2024. Olympiadbench: A challenging benchmark for promoting agi with olympiad-level bilingual multimodal scientific problems. arXiv preprint arXiv:2402.14008.
[11] Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. 2021. Measuring mathematical problem solving with the math dataset. arXiv preprint arXiv:2103.03874.
[12] Zhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, and Pengfei Liu. 2024. O1 replication journey–part 2: Surpassing o1-preview through simple distillation, big progress or bitter lesson? arXiv preprint arXiv:2411.16489.
[13] Subbarao Kambhampati. 2024. Can large language models reason and plan? Annals of the New York Academy of Sciences, 1534(1):15–18.
[14] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. 2020. Scaling laws for neural language models.
[15] Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph E. Gonzalez, Hao Zhang, and Ion Stoica. 2023. Efficient memory management for large language model serving with pagedattention. In Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles.
[16] Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, et al. 2022. Solving quantitative reasoning problems with language models. Advances in Neural Information Processing Systems, 35:3843–3857.
[17] Chen Li, Weiqi Wang, Jingcheng Hu, Yixuan Wei, Nanning Zheng, Han Hu, Zheng Zhang, and Houwen Peng. 2024a. Common 7b language models already possess strong math capabilities.
[18] Jia Li, Edward Beeching, Lewis Tunstall, Ben Lipkin, Roman Soletskyi, Shengyi Huang, Kashif Rasul, Longhui Yu, Albert Q Jiang, Ziju Shen, et al. 2024b. Numinamath: The largest public dataset in ai4maths with 860k pairs of competition math problems and solutions. Hugging Face repository.
[19] Yujia Li, David Choi, Junyoung Chung, Nate Kushman, Julian Schrittwieser, Remi Leblond, Tom Eccles, ´ James Keeling, Felix Gimeno, Agustin Dal Lago, Thomas Hubert, Peter Choy, Cyprien de Masson d’Autume, Igor Babuschkin, Xinyun Chen, Po-Sen Huang, Johannes Welbl, Sven Gowal, Alexey Cherepanov, James Molloy, Daniel J. Mankowitz, Esme Sutherland Robson, Pushmeet Kohli, Nando de Freitas, Koray Kavukcuoglu, and Oriol Vinyals. 2022. Competition-level code generation with alphacode. Science, 378(6624):1092–1097.
[20] William Merrill and Ashish Sabharwal. 2024. The expressive power of transformers with chain of thought.
[21] Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, and Mehrdad Farajtabar. 2024. Gsm-symbolic: Understanding the limitations of mathematical reasoning in large language models.
[22] OpenAI, :, Aaron Jaech, Adam Kalai, Adam Lerer, Adam Richardson, Ahmed El-Kishky, Aiden Low, Alec Helyar, Aleksander Madry, Alex Beutel, Alex Carney, Alex Iftimie, Alex Karpenko, Alex Tachard Passos, Alexander Neitz, Alexander Prokofiev, Alexander Wei, Allison Tam, Ally Bennett, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Duberstein, Andrew Kondrich, Andrey Mishchenko, Andy Applebaum, Angela Jiang, Ashvin Nair, Barret Zoph, Behrooz Ghorbani, Ben Rossen, Benjamin Sokolowsky, Boaz Barak, Bob McGrew, Borys Minaiev, Botao Hao, Bowen Baker, Brandon Houghton, Brandon McKinzie, Brydon Eastman, Camillo Lugaresi, Cary Bassin, Cary Hudson, Chak Ming Li, Charles de Bourcy, Chelsea Voss, Chen Shen, Chong Zhang, Chris Koch, Chris Orsinger, Christopher Hesse, Claudia Fischer, Clive Chan, Dan Roberts, Daniel Kappler, Daniel Levy, Daniel Selsam, David Dohan, David Farhi, David Mely, David Robinson, Dimitris Tsipras, Doug Li, Dragos Oprica, Eben Freeman, Eddie Zhang, Edmund Wong, Elizabeth Proehl, Enoch Cheung, Eric Mitchell, Eric Wallace, Erik Ritter, Evan Mays, Fan Wang, Felipe Petroski Such, Filippo Raso, Florencia Leoni, Foivos Tsimpourlas, Francis Song, Fred von Lohmann, Freddie Sulit, Geoff Salmon, Giambattista Parascandolo, Gildas Chabot, Grace Zhao, Greg Brockman, Guillaume Leclerc, Hadi Salman, Haiming Bao, Hao Sheng, Hart Andrin, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyung Won Chung, Ian Kivlichan, Ian O’Connell, Ian Osband, Ignasi Clavera Gilaberte, Ilge Akkaya, Ilya Kostrikov, Ilya Sutskever, Irina Kofman, Jakub Pachocki, James Lennon, Jason Wei, Jean Harb, Jerry Twore, Jiacheng Feng, Jiahui Yu, Jiayi Weng, Jie Tang, Jieqi Yu, Joaquin Quinonero Candela, Joe Palermo, Joel Parish, Johannes Heidecke, John Hallman, John ˜ Rizzo, Jonathan Gordon, Jonathan Uesato, Jonathan Ward, Joost Huizinga, Julie Wang, Kai Chen, Kai Xiao, Karan Singhal, Karina Nguyen, Karl Cobbe, Katy Shi, Kayla Wood, Kendra Rimbach, Keren Gu-Lemberg, Kevin Liu, Kevin Lu, Kevin Stone, Kevin Yu, Lama Ahmad, Lauren Yang, Leo Liu, Leon Maksin, Leyton Ho, Liam Fedus, Lilian Weng, Linden Li, Lindsay McCallum, Lindsey Held, Lorenz Kuhn, Lukas Kondraciuk, Lukasz Kaiser, Luke Metz, Madelaine Boyd, Maja Trebacz, Manas Joglekar, Mark Chen, Marko Tintor, Mason Meyer, Matt Jones, Matt Kaufer, Max Schwarzer, Meghan Shah, Mehmet Yatbaz, Melody Y. Guan, Mengyuan Xu, Mengyuan Yan, Mia Glaese, Mianna Chen, Michael Lampe, Michael Malek, Michele Wang, Michelle Fradin, Mike McClay, Mikhail Pavlov, Miles Wang, Mingxuan Wang, Mira Murati, Mo Bavarian, Mostafa Rohaninejad, Nat McAleese, Neil Chowdhury, Neil Chowdhury, Nick Ryder, Nikolas Tezak, Noam Brown, Ofir Nachum, Oleg Boiko, Oleg Murk, Olivia Watkins, Patrick Chao, Paul Ashbourne, Pavel Izmailov, Peter Zhokhov, Rachel Dias, Rahul Arora, Randall Lin, Rapha Gontijo Lopes, Raz Gaon, Reah Miyara, Reimar Leike, Renny Hwang, Rhythm Garg, Robin Brown, Roshan James, Rui Shu, Ryan Cheu, Ryan Greene, Saachi Jain, Sam Altman, Sam Toizer, Sam Toyer, Samuel Miserendino, Sandhini Agarwal, Santiago Hernandez, Sasha Baker, Scott McKinney, Scottie Yan, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shraman Ray Chaudhuri, Shuyuan Zhang, Siyuan Fu, Spencer Papay, Steph Lin, Suchir Balaji, Suvansh Sanjeev, Szymon Sidor, Tal Broda, Aidan Clark, Tao Wang, Taylor Gordon, Ted Sanders, Tejal Patwardhan, Thibault Sottiaux, Thomas Degry, Thomas Dimson, Tianhao Zheng, Timur Garipov, Tom Stasi, Trapit Bansal, Trevor Creech, Troy Peterson, Tyna Eloundou, Valerie Qi, Vineet Kosaraju, Vinnie Monaco, Vitchyr Pong, Vlad Fomenko, Weiyi Zheng, Wenda Zhou, Wes McCabe, Wojciech Zaremba, Yann Dubois, Yinghai Lu, Yining Chen, Young Cha, Yu Bai, Yuchen He, Yuchen Zhang, Yunyun Wang, Zheng Shao, and Zhuohan Li. 2024. Openai o1 system card.
[23] OpenAI. 2024. Learning to reason with llms, september 2024.
[24] Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, and Jimmy Ba. 2023. Openwebmath: An open dataset of high-quality mathematical web text.
[25] Yiwei Qin, Xuefeng Li, Haoyang Zou, Yixiu Liu, Shijie Xia, Zhen Huang, Yixin Ye, Weizhe Yuan, Hector Liu, Yuanzhi Li, et al. 2024. O1 replication journey: A strategic progress report–part 1. arXiv preprint arXiv:2410.18982.
[26] Qwen, :, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tianyi Tang, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, and Zihan Qiu. 2025. Qwen2.5 technical report.
[27] Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, and Yuxiong He. 2020. Zero: Memory optimizations toward training trillion parameter models. In SC20: International Conference for High Performance Computing, Networking, Storage and Analysis, pages 1–16. IEEE.
[28] David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, and Samuel R Bowman. 2023. Gpqa: A graduate-level google-proof q&a benchmark. arXiv preprint arXiv:2311.12022.
[29] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, YK Li, Yu Wu, and Daya Guo. 2024. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300.
[30] Charlie Snell, Jaehoon Lee, Kelvin Xu, and Aviral Kumar. 2024. Scaling llm test-time compute optimally can be more effective than scaling model parameters. arXiv preprint arXiv:2408.03314.
[31] Qwen Team. 2024a. Introducing qwen1.5.
[32] Qwen Team. 2024b. Qwq: Reflect deeply on the boundaries of the unknown.
[33] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, and Thomas Scialom. 2023. Llama 2: Open foundation and fine-tuned chat models.
[34] Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, and Denny Zhou. 2022. Self-consistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171.
[35] Zengzhi Wang, Xuefeng Li, Rui Xia, and Pengfei Liu. 2024. Mathpile: A billion-token-scale pretraining corpus for math.
[36] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, et al. 2022. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35:24824–24837.
[37] Violet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael Rafailov, Nathan Lile, Dakota Mahan, Louis Castricato, Jan-Philipp Franken, Nick Haber, and Chelsea Finn. 2025. Towards system 2 reasoning in llms: Learning how to think with meta chain-of-thought.
[38] Ruijie Xu, Zengzhi Wang, Run-Ze Fan, and Pengfei Liu. 2024. Benchmarking benchmark leakage in large language models.
[39] An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu, Chengpeng Li, Dayiheng Liu, Jianhong Tu, Jingren Zhou, Junyang Lin, et al. 2024. Qwen2. 5-math technical report: Toward mathematical expert model via self-improvement. arXiv preprint arXiv:2409.12122.
[40] Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, and Karthik Narasimhan. 2023. Tree of thoughts: Deliberate problem solving with large language models.
[41] Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, and Weiyang Liu. 2024. Metamath: Bootstrap your own mathematical questions for large language models.
[42] Xiang Yue, Xingwei Qu, Ge Zhang, Yao Fu, Wenhao Huang, Huan Sun, Yu Su, and Wenhu Chen. 2023. Mammoth: Building math generalist models through hybrid instruction tuning.
[43] Xiang Yue, Tuney Zheng, Ge Zhang, and Wenhu Chen. 2024. Mammoth2: Scaling instructions from the web.
[44] Hugh Zhang, Jeff Da, Dean Lee, Vaughn Robinson, Catherine Wu, Will Song, Tiffany Zhao, Pranav Raja, Charlotte Zhuang, Dylan Slack, Qin Lyu, Sean Hendryx, Russell Kaplan, Michele Lunati, and Summer Yue. 2024. A careful examination of large language model performance on grade school arithmetic.
[45] Chunting Zhou, Pengfei Liu, Puxin Xu, Srinivasan Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, et al. 2024a. Lima: Less is more for alignment. Advances in Neural Information Processing Systems, 36.
[46] Fan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, and Pengfei Liu. 2024b. Programming every example: Lifting pre-training data quality like experts at scale.
Датасет aime:
id 75:Среди 900 жителей Эймвилля 195 владеют бриллиантовым кольцом, 367 — набором для гольфа, а 562 — садовой лопатой. Кроме того, каждый из 900 жителей владеет пакетом конфет в форме сердечек. Есть 437 жителей, которые владеют ровно двумя из этих предметов, и 234 жителя, которые владеют ровно тремя из этих предметов. Найдите количество жителей Эймвилля, которые владеют всеми четырьмя предметами.
Решение:
Пусть ( w, x, y, z ) обозначают количество жителей, которые владеют 1, 2, 3 и 4 предметами соответственно. Мы знаем, что:
w + x + y + z = 900
Учитывая, что x = 437 и y = 234 , получаем:
w + z = 229
Теперь составим уравнение для общего количества предметов. Мы знаем, что есть 195 колец, 367 наборов для гольфа, 562 лопаты и 900 пакетов конфет. Суммируя, получаем 2024 предмета. Таким образом:
w + 2x + 3y + 4z = 2024
Подставляя x = 437 и y = 234 , получаем:
w + 4z = 448
Решаем систему уравнений:
w + z = 229
w + 4z = 448
Вычитая первое уравнение из второго, получаем:
3z = 219
z = 73
Ответ: 73
Перевод:
Имеется коллекция из 25 неразличимых белых фишек и 25 неразличимых черных фишек. Найдите количество способов разместить некоторые из этих фишек в 25 ячейках сетки (5 х 5) так, чтобы:
каждая ячейка содержала не более одной фишки;
все фишки в одной строке и все фишки в одном столбце имели одинаковый цвет;
добавление любой дополнительной фишки на сетку нарушило бы одно или несколько из предыдущих условий.
Решение:
Случай 1: Все фишки на сетке имеют одинаковый цвет.
В этом случае все ячейки заняты фишками одного цвета.
Количество конфигураций в этом случае: 2 (все белые или все черные).
Случай 2: На сетке присутствуют как черные, так и белые фишки.
Наблюдение 1: Каждый цвет должен занимать хотя бы один столбец и одну строку.
Наблюдение 2: Каждый цвет может занимать не более 4 строк и 4 столбцов.
Наблюдение 3: Если фишки одного цвета занимают столбцы с координатами ( {x_1, \dots, x_m} ) и строки с координатами ( {y_1, \dots, y_n} ), то каждая ячейка ((x, y)), где (x \in {x_1, \dots, x_m}) и (y \in {y_1, \dots, y_n}), должна быть занята фишкой этого цвета.
Наблюдение 4: Если фишки одного цвета занимают столбцы с координатами ( {x_1, \dots, x_m} ) и строки с координатами ( {y_1, \dots, y_n} ), то каждая ячейка ((x, y)), где (x \notin {x_1, \dots, x_m}) и (y \in {y_1, \dots, y_n}), или (x \in {x_1, \dots, x_m}) и (y \notin {y_1, \dots, y_n}), должна быть пустой.
Наблюдение 5: Если фишки одного цвета занимают столбцы с координатами ( {x_1, \dots, x_m} ) и строки с координатами ( {y_1, \dots, y_n} ), то каждая ячейка ((x, y)), где (x \notin {x_1, \dots, x_m}) и (y \notin {y_1, \dots, y_n}), должна быть занята фишкой другого цвета.
Используя эти наблюдения, количество допустимых конфигураций в этом случае:
\sum_{n=1}^4 \sum_{m=1}^4 \binom{5}{n} \binom{5}{m} = \left( \sum_{n=1}^4 \binom{5}{n} \right) \left( \sum_{m=1}^4 \binom{5}{m} \right) = (2^5 - 2)^2 = 900.
Итог: Общее количество допустимых конфигураций:
2 + 900 = 902.
Ответ: 902
Алиса и Боб играют в следующую игру. Перед ними лежит стопка из ( n ) фишек. Игроки ходят по очереди, начиная с Алисы. На каждом ходу игрок забирает либо 1 фишку, либо 4 фишки из стопки. Тот, кто забирает последнюю фишку, побеждает. Найдите количество положительных целых чисел ( n ), не превышающих 2024, для которых существует стратегия, гарантирующая Бобу победу независимо от ходов Алисы.
Решение:
Экспериментальный подход:
Если ( n = 1 ), Алиса забирает фишку и побеждает.
Если ( n = 2 ), Алиса забирает 1 фишку, Боб забирает последнюю и побеждает.
Если ( n = 3 ), Алиса забирает 1 фишку, Боб забирает 1 фишку, Алиса забирает последнюю и побеждает.
Если ( n = 4 ), Алиса забирает все 4 фишки и побеждает.
Если ( n = 5 ), независимо от хода Алисы, Боб может забрать последние фишки и победить.
Заметим, что Алиса выигрывает при ( n = 1, 3, 4 ), а Боб выигрывает при ( n = 2, 5 ).
Стратегия Боба:
Если ( n ) кратно 5, Боб может всегда выиграть. Например, если Алиса берет 1 фишку, Боб берет 4, и наоборот. Это продолжается до тех пор, пока не останется 0 фишек.
Если ( n \equiv 2 \mod 5 ), Боб также может выиграть, используя аналогичную стратегию. Например, если ( n = 7 ), Алиса берет 1, Боб берет 4, и так далее, пока не останется 2 фишки. Алиса вынуждена взять 1, и Боб забирает последнюю.
Подсчет количества подходящих ( n ):
Количество чисел, кратных 5, не превышающих 2024: ( \left\lfloor \frac{2024}{5} \right\rfloor = 404 ).
Количество чисел, дающих остаток 2 при делении на 5, не превышающих 2024: ( \left\lfloor \frac{2024 - 2}{5} \right\rfloor + 1 = 405 ).
Общее количество подходящих ( n ): ( 404 + 405 = 809 ).
Ответ: 809
Список положительных целых чисел обладает следующими свойствами:
Сумма элементов списка равна 30.
Уникальная мода списка равна 9.
Медиана списка — это положительное целое число, которое не появляется в самом списке.
Найдите сумму квадратов всех элементов списка.
Решение:
Анализ условий:
Третье условие подразумевает, что размер списка должен быть четным числом, так как если бы он был нечетным, медиана списка обязательно присутствовала бы в списке.
Рассмотрим возможные четные размеры списка.
Случай 1: Размер списка равен 2.
Единственный возможный список: ([9, 9]).
Сумма элементов: (9 + 9 = 18), что не удовлетворяет первому условию (сумма должна быть 30).
Этот случай не подходит.
Случай 2: Размер списка равен 4.
В списке должно быть два числа 9 (так как 9 — уникальная мода).
Оставшаяся сумма: (30 - 18 = 12).
Остальные два числа должны быть различными и их сумма должна быть равна 12.
Пусть эти числа имеют вид (a) и (12 - a).
Оба числа должны быть меньше 9, чтобы медиана не была равна 9 (так как медиана в списке из 4 элементов — это среднее значение двух центральных чисел).
Единственная подходящая пара: (5) и (7).
Таким образом, список: ([5, 7, 9, 9]).
Проверка условий:
Сумма: (5 + 7 + 9 + 9 = 30).
Мода: 9 (появляется дважды).
Медиана: (\frac{7 + 9}{2} = 8), которая не присутствует в списке.
Все условия выполнены.
Вычисление суммы квадратов:
[
5^2 + 7^2 + 9^2 + 9^2 = 25 + 49 + 81 + 81 = 236.
]
Ответ: 236