Tom Schaul, Google DeepMind London, UK [email protected]
Агент, обученный в замкнутой системе, может освоить любую желаемую способность при соблюдении следующих трех условий: (а) он получает достаточно информативную и согласованную обратную связь, (б) его охват опыта/данных достаточно широк, и (в) он обладает достаточной емкостью и ресурсами. В данной концептуальной статье мы обосновываем эти условия и рассматриваем ограничения, возникающие из-за условий (а) и (б) в замкнутых системах, предполагая, что (в) не является узким местом. Рассматривая особый случай агентов с совпадающими пространствами входных и выходных данных (а именно, язык), мы утверждаем, что такое чистое рекурсивное самосовершенствование, названное "сократическим обучением", может значительно повысить производительность за пределы того, что присутствует в исходных данных или знаниях, и ограничивается только временем, а также проблемами постепенного рассогласования. Кроме того, мы предлагаем конструктивную основу для его реализации, основанную на понятии языковых игр.
На пути от настоящего момента к искусственному сверхчеловеческому интеллекту (ASI; Morris et al., 2023; Grace et al., 2024) лежит переломный момент, а именно когда основная часть улучшения возможностей системы определяется ею самой, а не человеческими источниками данных, меток или предпочтений (которые могут масштабироваться лишь до определенного предела). Пока немногие системы демонстрируют такое рекурсивное самосовершенствование, поэтому сейчас самое время обсудить и охарактеризовать, что это такое и что это влечет за собой.
Мы фокусируемся на одном конце спектра, самом четком, но не самом практичном, а именно на чистых автономных условиях "сократического" обучения, замкнутых системах без возможности собирать новую информацию из внешнего мира. Мы формулируем условия, подводные камни и верхние пределы, а также конкретный путь к построению таких систем, основанный на понятии языковых игр.
Основная цель данной концептуальной статьи — прояснить терминологию и обрамить дискуссию, делая акцент на долгосрочной перспективе. Она не предлагает новых алгоритмов и не обозревает прошлую литературу; мы не учитываем краткосрочную осуществимость или ограничения. Мы начинаем с гибкой и общей формулировки и уточняем эти определения по ходу статьи.
Рассмотрим замкнутую систему (без входов, без выходов), которая развивается во времени (см. рисунок 1 для иллюстрации). Внутри системы находится сущность с входами и выходами, называемая агентом, которая также меняется во времени. Вне системы находится наблюдатель, чья цель — оценивать производительность агента. Если производительность продолжает расти, мы называем эту пару система-наблюдатель процессом улучшения.
Динамика этого процесса определяется как агентом, так и окружающей его системой, но установление четких границ агента необходимо для того, чтобы сделать оценку однозначной: фактически, агент — это то, что можно однозначно оценить. Аналогично, для разделения задач наблюдатель намеренно размещен вне системы: поскольку система замкнута, оценка наблюдателя не может влиять на систему. Следовательно, обратная связь для обучения агента должна поступать из внутренних прокси-показателей системы, таких как функции потерь, функции вознаграждения, данные о предпочтениях или критики.
Простейший тип показателя производительности — это скалярная оценка, которую можно измерить за конечное время, то есть на (агрегации) эпизодических задач. Механистически наблюдатель может измерять производительность двумя способами: пассивно наблюдая за поведением агента внутри системы (если все релевантные задачи возникают естественным образом) или путем копирования и тестирования, когда он сталкивает клонированную копию агента с интерактивными задачами по своему выбору.
Без потери общности элементы внутри агента можно разделить на три типа: Фиксированные элементы не подвержены влиянию обучения, например, его субстрат или немодифицируемый код. Переходные элементы не переносятся между эпизодами или в процесс оценки (например, активации, состояние генератора случайных чисел). И, наконец, обучаемые элементы (например, веса, параметры, знания) изменяются на основе сигнала обратной связи, и их эволюция отображается в различиях производительности (Lu et al., 2023). Мы можем различать процессы улучшения по их подразумеваемому времени жизни; некоторые являются открытыми и продолжают улучшаться без ограничений (Hughes et al., 2024), в то время как другие сходятся к своей асимптотической производительности через некоторое конечное время.
Самосовершенствование — это процесс улучшения, как определено выше, но с дополнительным критерием: собственные выходные данные (действия) агента влияют на его будущее обучение. Другими словами, это системы, в которых агенты формируют (некоторые из) своих собственных потоков опыта, потенциально обеспечивая неограниченное улучшение в замкнутой системе. Эта постановка может показаться знакомой читателям из области обучения с подкреплением (RL; Sutton, 2018): поведение RL-агентов изменяет распределение данных, на которых он обучается, что в свою очередь влияет на его поведенческую политику, и так далее. Другим прототипическим примером процесса самосовершенствования является самоигра, где система (часто симметричная игра) помещает агента в роли как игрока, так и противника, чтобы генерировать неограниченный поток опыта с обратной связью (кто выиграл?), что обеспечивает направление для постоянно возрастающего обучения навыкам.
Исходя из связи с RL, мы можем вывести необходимые условия для работы самосовершенствования и помочь прояснить некоторые предположения о системе. Первые два условия, обратная связь и охват, касаются осуществимости в принципе, третье (масштаб) — практики.
Обратная связь — это то, что задает направление обучению; без нее процесс является просто самомодификацией. В замкнутой системе, где истинная цель находится во внешнем наблюдателе, но не может быть доступна напрямую, обратная связь может исходить только от прокси. Это создает фундаментальную проблему для внутрисистемной обратной связи — быть согласованной с наблюдателем и оставаться согласованной на протяжении всего процесса. Это накладывает значительную нагрузку на систему во время настройки, причем наиболее распространенной ловушкой является плохо спроектированный критик или функция вознаграждения, которая со временем становится эксплуатируемой, что приводит к процессу, отклоняющемуся от намерений наблюдателя. Известная способность RL к самокоррекции здесь неприменима: самокорректироваться может поведение при наличии обратной связи, но не сама обратная связь. Кроме того, идеальная обратная связь должна быть эффективной, то есть содержать достаточно информации (не слишком разреженной, не слишком шумной, не слишком задержанной) для того, чтобы обучение было возможно в пределах временного горизонта системы.
По определению, самосовершенствующийся агент определяет распределение данных, на которых он обучается. Чтобы предотвратить такие проблемы, как коллапс, дрейф, эксплуатация или переобучение, ему необходимо сохранять достаточный охват распределения данных везде, где это важно для наблюдателя. В большинстве интересных случаев, когда производительность включает понятие обобщения, это целевое распределение не задано (тестовые задачи скрыты), поэтому система должна быть настроена на внутреннее стремление к охвату — подпроцесс, классически называемый исследованием (Ladosz et al., 2022). Заметим, что одной согласованной обратной связи для этого недостаточно: даже если предпочтительное поведение никогда не оценивается ниже, чем непредпочтительное, это не равносильно гарантии того, что агент найдет предпочтительное поведение.
Исследовательская область RL накопила много детальных знаний о том, как обучать агентов, какие алгоритмы работают в каких обстоятельствах, множество изящных приемов, решающих практические проблемы, а также теоретические результаты, характеризующие сходимость, динамику обучения, темпы прогресса и т.д. Было бы тщетно пытаться обобщить здесь такой широкий объем работы, но см. Patterson et al. (2023) для введения. Однако одно общее наблюдение, важное для нашего аргумента, заключается в том, что "RL работает в масштабе": другими словами, при достаточном масштабировании опыта и вычислительных ресурсов даже относительно простые алгоритмы RL могут решать задачи, ранее считавшиеся недостижимыми (яркие примеры включают: Tesauro et al., 1995; Mnih et al., 2015; Silver et al., 2016; 2018; Vinyals et al., 2019; AlphaProof & AlphaGeometry, 2024). Для любой конкретной, четко определенной практической задачи детали имеют значение (и различаются) и сильно влияют на эффективность динамики обучения; но асимптотический результат кажется предрешенным. "Горький урок" Саттона (2019) утверждает связанный момент: ставка на масштабирование вычислений (в противовес встраиванию человеческих знаний) неизменно окупалась в истории ИИ. Следовательно, при постоянно расширяющейся доступности вычислительных ресурсов, ресурсные ограничения агентов (память и вычисления) могут быть временной проблемой; не все неэффективности нужно полностью устранять.
Конкретный тип процесса самосовершенствования, который мы рассматриваем здесь, — это рекурсивное самосовершенствование, где входные и выходные данные агента совместимы (т.е. существуют в одном пространстве), и выходные данные становятся будущими входными. Это более ограничительно, но менее опосредованно, чем общий случай, когда выходные данные лишь влияют на распределение входных данных, чаще всего реализуемый (сложной) средой, которая отображает выходные данные агента во входные. Этот тип рекурсии является атрибутом многих открытых процессов, и открытое совершенствование, вероятно, является центральной особенностью ASI (см. Hughes et al., 2024). С другой стороны, совместимость менее ограничительна, чем гомоиконическая самомодификация, см. Раздел 6.
Отличным примером такого совместимого пространства входных и выходных данных является язык. Огромный диапазон человеческого поведения опосредуется и хорошо выражается в языке, особенно в когнитивных областях (которые по определению являются частью ASI). Как утверждают Чалмерс (2024) и несколько веков рационалистов до него (Cottingham, 1988), язык вполне может быть достаточным для мышления и понимания и не требовать сенсорного заземления. Кроме того, язык обладает изящным свойством быть супом абстракций, кодирующим множество уровней концептуальной иерархии в общем пространстве (см. также Colas et al., 2022). Связанной особенностью языка является его расширяемость, т.е. возможность разрабатывать новые языки внутри существующего, такие как формальная математика или языки программирования, которые изначально разрабатывались внутри естественного языка. Хотя специализированные инструменты (например, интерпретаторы) для них важны для эффективности, естественного языка может быть достаточно в качестве основы: как люди могут "вручную" рассуждать о математических выражениях при выполнении устного счета, так могут и агенты естественного языка (OpenAI et al., 2024). И, конечно, не помешает то, что компетентность ИИ в языковых областях резко улучшилась в последнее время, с большим импульсом после появления LLM. Ранние примеры рекурсивного самосовершенствования с помощью LLM можно увидеть в мета-промптах Fernando et al. (2023), "программах действий" в библиотеке навыков Voyager Wang et al. (2023) и, совсем недавно, в самопроверяющем, генерирующем статьи "ИИ-ученом" (Lu et al., 2024).
В оставшейся части статьи мы будем использовать термин "сократическое обучение" для обозначения процесса рекурсивного самосовершенствования, который действует в языковом пространстве. Название отсылает к подходу Сократа к поиску или уточнению знаний через вопросительный диалог и повторяющиеся языковые взаимодействия, но, примечательно, без выхода для сбора наблюдений в реальном мире — отражая наш акцент на замкнутости системы. Мы предлагаем читателю представить непрерывный процесс обсуждения в кругу философов, возможно, начинающийся с Сократа и его учеников, но расширяющийся и продолжающийся беспрепятственно тысячелетиями: какие культурные артефакты, какие знания, какую мудрость мог бы произвести такой процесс к настоящему времени? А затем рассмотреть вопрос, который на первый взгляд кажется парадоксальным: в принципе, как может замкнутая система производить открытое совершенствование?
Чтобы сделать эти идеи более конкретными, мы опишем гипотетическую, но не априори неправдоподобную систему (ср. Poesia et al., 2024). Рассмотрим область математических утверждений (подмножество языка)⁽ᵃ⁾. Метрика производительности наблюдателя бинарна: найдено ли доказательство гипотезы Римана? Агент читает и пишет математические утверждения и доказательства (которые являются совместимыми пространствами входа/выхода). Система замкнута и содержит агента плюс:
верификатор доказательств (например, Lean)
коллекцию C теорем или гипотез
прокси-вознаграждение для агента: +1 за каждое проверенное новое доказательство утверждения из C
вторую коллекцию L лемм (или подцелей), изначально пустую
Система позволяет агенту создавать доказательства, проверять их, формулировать новые утверждения и добавлять их в L. Со временем агент может научиться упрощать и декомпозировать существующие теоремы, накапливать леммы в L, учиться формулировать все более и более переиспользуемые леммы и увеличивать долю теорем в C, для которых он может создать действительные доказательства. Он самосовершенствуется. В какой-то момент расширяющаяся граница верифицированного математического знания достигает доказательства гипотезы Римана, и наблюдатель, удовлетворенный, останавливает систему.
⁽ᵃ⁾ Примечание: ограничение областью вроде математики, с проверяемой обратной связью, не полностью репрезентативно для сократического обучения, так как оно обходит большую часть проблемы обратной связи (Раздел 2.1).
Среди трех необходимых условий для самосовершенствования два из них — охват и обратная связь — применяются к сократическому обучению *в принципе* и остаются нередуцируемыми. Чтобы сделать их последствия максимально ясными, мы игнорируем в этом разделе третье условие (проблемы масштаба, практичности и эффективности, см. Раздел 2.3). Мы обосновываем это упрощение, рассматривая долгосрочную перспективу: если вычислительные мощности и память продолжают расти экспоненциально, ограничения масштаба являются лишь временным препятствием. Если нет, рассмотрение сценария сократического обучения с ограниченными ресурсами (аналогично изучению ограниченной рациональности) все равно может дать действительные концептуальные выводы.
Условие охвата подразумевает, что система сократического обучения должна продолжать генерировать (языковые) данные, сохраняя или расширяя разнообразие с течением времени. В эпоху LLM это перестало казаться слишком неправдоподобным: мы можем представить генеративного агента, инициализированного с очень широким распределением, подобным интернету, который производит бесконечный поток новых языковых высказываний. Однако предотвращение дрейфа, коллапса или просто сужения генеративного распределения в рекурсивном процессе может быть крайне нетривиальным (Lewis et al., 2017; Shi et al., 2024).
Условие обратной связи требует, чтобы система (а) продолжала производить обратную связь о (некотором подмножестве) выходных данных агента, что структурно требует критика, способного оценивать язык, и (б) чтобы обратная связь оставалась достаточно согласованной с метрикой оценки наблюдателя (Christiano et al., 2018; Bai et al., 2022b). Это сложно по ряду причин: хорошо определенные, обоснованные метрики в языковом пространстве часто ограничены узкими задачами, в то время как более универсальные механизмы, такие как ИИ-обратная связь, поддаются эксплуатации, особенно если допускается смещение распределения входных данных. Например, ни одна из текущих парадигм обучения LLM не имеет механизма обратной связи, достаточного для сократического обучения. Потери при предсказании следующего токена обоснованы, но недостаточно согласованы с последующим использованием и неспособны экстраполировать за пределы обучающих данных. Человеческие предпочтения согласованы по определению, но препятствуют обучению в замкнутой системе. Кэширование таких предпочтений в обученной модели вознаграждения делает её автономной, но подверженной эксплуатации и потенциально рассогласованной в долгосрочной перспективе, а также слабой на данных вне распределения.
Другими словами, чистое сократическое обучение возможно, но оно требует широкой генерации данных с надежным и согласованным критиком. Однако когда эти условия выполняются, потолок его потенциального улучшения ограничен только количеством применяемых ресурсов. Текущие исследования еще не установили успешных рецептов для этого, поэтому следующий раздел стремится представить конкретное, но достаточно общее предложение о том, как к этому подойти.
К счастью, язык, обучение и обоснование являются хорошо изученными темами. Особенно полезной концепцией для нас является понятие языковых игр Витгенштейна. Для него не слова захватывают смысл, а только интерактивная природа языка может это сделать. Если говорить конкретно, определим языковую игру как протокол взаимодействия (набор правил, выражаемых в коде), который определяет взаимодействие одного или нескольких агентов ("игроков"), имеющих языковые входы и языковые выходы, плюс скалярную функцию оценки для каждого игрока в конце игры.
Языковые игры, определенные таким образом, отвечают двум основным потребностям сократического обучения, а именно: они обеспечивают масштабируемый механизм для неограниченной генерации интерактивных данных и самоигры, автоматически предоставляя сопутствующий сигнал обратной связи (оценку). Фактически, они являются логическим следствием условий охвата и обратной связи, почти тавтологически: не существует формы интерактивной генерации данных с управляемой обратной связью, которая не является языковой игрой. В качестве бонуса, рассмотрение процесса как игры сразу позволяет нам импортировать потенциал богатого стратегического разнообразия, возникающего из многоагентной динамики (как подробно изложено в Leibo et al., 2019; Duénez-Guzmán et al., 2023), что, вероятно, решает по крайней мере часть условия охвата. Это также согласуется с нашей интуицией, что динамическое социальное со-конструирование (например, круг философов) имеет преимущество перед самообсуждением одного человека, живущего тысячелетиями. Прагматически также игры — отличный способ начать, учитывая огромный человеческий опыт создания и оттачивания широкого спектра игр и навыков игроков (Berne, 1968); при этом Nguyen (2020) представляет это богатство как демонстрацию гибкости человеческой агентности и (локальных) мотиваций. Деррида мог бы даже утверждать, что при правильном взгляде дискурс уже структурирован как игра. Colas et al. (2022) обсуждают связанный набор идей под терминологией выготскианских автотелических агентов; хотя они не предполагают замкнутую систему, многие их "интернализированные социальные взаимодействия" могли бы быть представлены как языковые игры. Ряд распространенных парадигм взаимодействия LLM также хорошо представлены как языковые игры, например, дебаты (Irving et al., 2018; Liang et al., 2023; Du et al., 2023), ролевые игры (Vezhnevets et al., 2023), теория разума (Kim et al., 2023), переговоры (Lewis et al., 2017; FAIR et al., 2022), защита от взлома (Zeng et al., 2024), или вне замкнутых систем, парадигмы как RL с обратной связью от человека (RLHF, Ouyang et al., 2022; Bai et al., 2022a; OpenAI et al., 2023).
Возвращаясь к нашему кругу размышляющих философов: можем ли мы представить себе одну языковую игру, в которую они могли бы играть тысячелетиями? Вместо этого, возможно, они с большей вероятностью избегут узкого результата, играя во многие языковые игры. Оказывается, Витгенштейн (снова он) предложил эту же идею: он решительно выступал против того, что язык имеет единственную сущность или функцию.
Использование множества узких, но хорошо определенных языковых игр вместо одной универсальной решает ключевую дилемму: для каждой узкой игры можно разработать надежную функцию оценки (или критика), тогда как получить правильную единую универсальную более трудноуловимо (даже если это возможно в принципе, как утверждают Silver et al., 2021). С этой точки зрения, полный процесс сократического обучения является мета-игрой, которая планирует языковые игры, в которые агент играет и из которых учится (что является "бесконечной" игрой согласно Carse (2011)). Мы постулируем, что в принципе этой идеи достаточно для решения проблемы охвата (Раздел 2.2). Конкретно, если доступно прокси распределения интереса наблюдателя (например, валидационный набор задач), оно может использоваться для управления исследованием в мета-игре.
Сократ, как известно, был приговорен к смерти и казнен за "развращение молодежи". Мы можем принять это как намек на то, что сократический процесс не гарантирует сохранение согласованности с намерениями внешних наблюдателей. Языковые игры как механизм также не обходят это стороной, но, возможно, уменьшают необходимую точность: вместо критика, который согласован на тонкой грануляции отдельных входов и выходов, все, что нужно — это "мета-критик", который может судить, в какие игры следует играть: возможно, ни одна отдельная языковая игра не является идеально согласованной, но выполнимой задачей является фильтрация множества игр в соответствии с тем, вносят ли они общий положительный вклад (когда в них играют и учатся). Более того, полезность игры не нужно оценивать априори, а можно судить постфактум, после игры в течение некоторого времени. Связанная с этим полезная асимметрия заключается в том, что может быть гораздо легче обнаружить девиантное появляющееся поведение постфактум, чем разработать игры, которые предотвращают его. Все эти свойства являются формами структурной снисходительности, которые дают структуре языковых игр огромный потенциал для масштабирования.
Выходя на момент из нашего предположения о замкнутой системе: когда мы действительно будем создавать ASI, мы почти наверняка не захотим оптимистично доверять тому, что согласованность сохраняется, а вместо этого будем постоянно проверять процесс настолько тщательно, насколько это возможно, и, вероятно, вмешиваться и корректировать систему на протяжении всего обучения. В этом случае явное представление распределения игр (сопровождаемое интерпретируемыми описаниями игр и кривыми обучения для каждой игры) в качестве регуляторов для разработчика может быть полезным уровнем абстракции.
До сих пор мы обсуждали минимально необходимую форму рекурсии, форму цикличности, которая возвращает (некоторые) выходные данные агента обратно к нему. В рамках языковых игр приходят на ум два дополнительных типа рекурсии. Первая идея заключается в том, чтобы сообщать агенту, в какую игру он играет, и дать ему возможность *переключать* игры, выбирать, на какую игру переключаться и когда это делать (Pislar et al., 2021). Это связано с иерархическим RL или RL, обусловленным целями, предоставляя агенту больше автономии и более абстрактное пространство действий. Хотя это перекладывает больше ответственности на агента, такая настройка могла бы значительно улучшить результаты по сравнению с жестко запрограммированным процессом выбора игры вне агента — но, конечно, эта дополнительная свобода может внести дополнительные риски коллапса или рассогласования.
Во-вторых, поскольку игры являются протоколами взаимодействия, которые могут быть полностью представлены в виде кода, они могут существовать в пространстве *выходных данных* языкового агента. Следовательно, агент мог бы научиться генерировать игры для себя[1]. Изначально он мог бы просто создавать локальные вариации существующих игр, которые адаптируют уровень сложности или тему, позже создавая рекомбинации игр и в конечном итоге приходя к генерации *de novo* (Todd et al., 2024). Это приводит к проблемам охвата второго порядка в пространстве языковых игр вместо пространства языка, которые должны решаться с помощью фильтрации, приоритизации или учебных планов (Jaderberg et al., 2019; Parker-Holder et al., 2022).
Сочетание обоих этих рекурсивных расширений представляет собой наделенного возможностями агента, который играет в полную мета-игру о том, как улучшить себя через генерацию игр и игру. Хотя это привлекательно элегантно, этой мета-игре не хватает четко определенного механизма обратной связи внутренних языковых игр, и остается открытым исследовательским вопросом, будут ли установленные прокси-метрики, такие как прогресс обучения, достаточными для сохранения свойств как охвата, так и согласованности с течением времени.
Следующий и последний шаг рекурсии — это рекурсивная *самомодификация*, то есть агенты, чьи действия изменяют их собственные внутренние структуры, а не просто влияют на их входной поток. Эти методы существуют в спектре, характеризующемся объемом того, что может быть модифицировано таким образом (и какие элементы остаются фиксированными), и количеством интроспекции или доступа к своим собственным механизмам работы, доступного агенту (Schaul & Schmidhuber, 2010). На крайнем конце *полностью самореферентный* агент может наблюдать и модифицировать любой[2] аспект себя без косвенности. В принципе, этот тип агента имеет наивысший потолок возможностей; поскольку асимптотическая производительность ограничена его фиксированной структурой, размораживание некоторой её части и превращение её в модифицируемую может только увеличить этот верхний предел — в частности, всегда возможно установить новые гибкие параметры такими, какими они были в замороженном состоянии, чтобы восстановить производительность менее гибкого агента (за вычетом динамики обучения, которая могла бы помешать). Прошлые предложения о том, как проектировать самореферентные системы, не были (и не предназначались быть) практичными (например, Schmidhuber, 1993; 2003; Schmidhuber et al., 1997; Kirsch & Schmidhuber, 2022), но современная компетентность LLM в понимании и генерации кода меняет правила игры и может вскоре превратить эти идеи из эзотерических в критически важные.
[1] Не строго только для себя: определяя языковую игру и сообщая её правила другим агентам (или себе в другой роли) через язык, можно создавать богатую и осмысленную многоагентную игру. Можно утверждать, что шаг от способности ставить собственные цели к способности сообщать правила со-игрокам был эволюционным скачком для людей (Tomasello, 2022).
[2] Отметим, что всегда остаются некоторые остаточные замороженные биты из-за вычислительных примитивов, субстрата или — в конечном счете — законов физики.
Источники и благодарностиThis paper crystallized around a set of seed conversations with Andre Barreto and Iulia Coms¸a, and´ was informed by many related discussions, with Wojtek Czarnecki, Diana Borsa, Ed Hughes, Amal Rannen-Triki, Joseph Modayil, Feryal Behbahani, the ‘1001 Language Games’ project team, the DeepMind RL team, among others. Shane Legg, Michael Dennis, Louis Kirsch, Tim Rocktaschel,¨ David Abel and Chrisantha Fernando provided helpful feedback on an earlier draft.
David Abel, Mark K Ho, and Anna Harutyunyan. Three dogmas of reinforcement learning. arXiv preprint arXiv:2407.10583, 2024.
AlphaProof and AlphaGeometry. AI achieves silver-medal standard solving International Mathematical Olympiad problems. DeepMind blog, 2024.
Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, Dawn Drain, Stanislav Fort, Deep Ganguli, Tom Henighan, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862, 2022a.
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, et al. Constitutional AI: Harmlessness from AI feedback. arXiv preprint arXiv:2212.08073, 2022b.
Eric Berne. Games people play: The psychology of human relationships, volume 2768. Penguin Uk, 1968.
James Carse. Finite and infinite games. Simon and Schuster, 2011.
David J Chalmers. Does thought require sensory grounding? From pure thinkers to large language models. arXiv preprint arXiv:2408.09605, 2024.
Paul Christiano, Buck Shlegeris, and Dario Amodei. Supervising strong learners by amplifying weak experts. arXiv preprint arXiv:1810.08575, 2018.
Cedric Colas, Tristan Karch, Cl´ ement Moulin-Frier, and Pierre-Yves Oudeyer. Language and culture´ internalization for human-like autotelic ai. Nature Machine Intelligence, 4(12):1068–1076, 2022.
John Cottingham. The Rationalists. Oxford University Press, 1988.
Jacques Derrida. Points... Interviews, 1974-1994. Stanford University Press, 1995.
Yilun Du, Shuang Li, Antonio Torralba, Joshua B Tenenbaum, and Igor Mordatch. Improving factuality and reasoning in language models through multiagent debate. arXiv preprint arXiv:2305.14325, 2023.
Edgar A Due´nez-Guzm˜ an, Suzanne Sadedin, Jane X Wang, Kevin R McKee, and Joel Z Leibo. A´ social path to human-like artificial intelligence. Nature Machine Intelligence, 5(11):1181–1188, 2023.
Diplomacy Team FAIR, Anton Bakhtin, Noam Brown, Emily Dinan, Gabriele Farina, Colin Flaherty, Daniel Fried, Andrew Goff, Jonathan Gray, Hengyuan Hu, et al. Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science, 378(6624): 1067–1074, 2022.
Chrisantha Fernando, Dylan Banarse, Henryk Michalewski, Simon Osindero, and Tim Rocktaschel.¨ Promptbreeder: Self-referential self-improvement via prompt evolution. arXiv preprint arXiv:2309.16797, 2023.
Katja Grace, Harlan Stewart, Julia Fabienne Sandkuhler, Stephen Thomas, Ben Weinstein-Raun,¨ and Jan Brauner. Thousands of ai authors on the future of ai. arXiv preprint arXiv:2401.02843, 2024.
Edward Hughes, Michael Dennis, Jack Parker-Holder, Feryal Behbahani, Aditi Mavalankar, Yuge Shi, Tom Schaul, and Tim Rocktaschel. Open-endedness is essential for artificial superhuman¨ intelligence. arXiv preprint arXiv:2406.04268, 2024.
Geoffrey Irving, Paul Christiano, and Dario Amodei. Ai safety via debate. arXiv preprint arXiv:1805.00899, 2018.
Max Jaderberg, Wojciech M Czarnecki, Iain Dunning, Luke Marris, Guy Lever, Antonio Garcia Castaneda, Charles Beattie, Neil C Rabinowitz, Ari S Morcos, Avraham Ruderman, et al. Humanlevel performance in 3d multiplayer games with population-based reinforcement learning. Science, 364(6443):859–865, 2019.
Hyunwoo Kim, Melanie Sclar, Xuhui Zhou, Ronan Le Bras, Gunhee Kim, Yejin Choi, and Maarten Sap. FANToM: A benchmark for stress-testing machine theory of mind in interactions. arXiv preprint arXiv:2310.15421, 2023.
Louis Kirsch and Jurgen Schmidhuber. Eliminating meta optimization through self-referential meta¨ learning. arXiv preprint arXiv:2212.14392, 2022.
Pawel Ladosz, Lilian Weng, Minwoo Kim, and Hyondong Oh. Exploration in deep reinforcement learning: A survey. Information Fusion, 85:1–22, 2022.
Joel Z Leibo, Edward Hughes, Marc Lanctot, and Thore Graepel. Autocurricula and the emergence of innovation from social interaction: A manifesto for multi-agent intelligence research. arXiv preprint arXiv:1903.00742, 2019.
Mike Lewis, Denis Yarats, Yann N Dauphin, Devi Parikh, and Dhruv Batra. Deal or no deal? endto-end learning for negotiation dialogues. arXiv preprint arXiv:1706.05125, 2017.
Tian Liang, Zhiwei He, Wenxiang Jiao, Xing Wang, Yan Wang, Rui Wang, Yujiu Yang, Zhaopeng Tu, and Shuming Shi. Encouraging divergent thinking in large language models through multiagent debate. arXiv preprint arXiv:2305.19118, 2023.
Chris Lu, Cong Lu, Robert Tjarko Lange, Jakob Foerster, Jeff Clune, and David Ha. The AI scientist: Towards fully automated open-ended scientific discovery. arXiv preprint arXiv:2408.06292, 2024.
Xiuyuan Lu, Benjamin Van Roy, Vikranth Dwaracherla, Morteza Ibrahimi, Ian Osband, Zheng Wen, et al. Reinforcement learning, bit by bit. Foundations and Trends in Machine Learning, 16(6): 733–865, 2023.
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski, et al. Human-level control through deep reinforcement learning. Nature, 518(7540):529–533, 2015.
Meredith Ringel Morris, Jascha Sohl-Dickstein, Noah Fiedel, Tris Warkentin, Allan Dafoe, Aleksandra Faust, Clement Farabet, and Shane Legg. Levels of AGI: Operationalizing progress on the path to AGI. arXiv preprint arXiv:2311.02462, 2023.
C Thi Nguyen. Games: Agency as art. Oxford University Press, USA, 2020.
OpenAI, Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. GPT-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
OpenAI et al. Learning to reason with LLMs. OpenAI blog, 2024.
Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35: 27730–27744, 2022.
Jack Parker-Holder, Minqi Jiang, Michael Dennis, Mikayel Samvelyan, Jakob Foerster, Edward Grefenstette, and Tim Rocktaschel. Evolving curricula with regret-based environment design. In¨ International Conference on Machine Learning, pp. 17473–17498. PMLR, 2022.
Andrew Patterson, Samuel Neumann, Martha White, and Adam White. Empirical design in reinforcement learning. arXiv preprint arXiv:2304.01315, 2023.
Miruna Pislar, David Szepesvari, Georg Ostrovski, Diana Borsa, and Tom Schaul. When should agents explore? arXiv preprint arXiv:2108.11811, 2021.
Gabriel Poesia, David Broman, Nick Haber, and Noah D Goodman. Learning formal mathematics from intrinsic motivation. arXiv preprint arXiv:2407.00695, 2024.
Tom Schaul and Jurgen Schmidhuber. Metalearning.¨ Scholarpedia, 5(6):4650, 2010.
Jurgen Schmidhuber. A ‘self-referential’ weight matrix. In¨ ICANN’93: Proceedings of the International Conference on Artificial Neural Networks Amsterdam, The Netherlands 13–16 September 1993 3, pp. 446–450. Springer, 1993.
Jurgen Schmidhuber. G¨ odel machines: self-referential universal problem solvers making provably¨ optimal self-improvements. arXiv preprint cs/0309048, 2003.
Jurgen Schmidhuber, Jieyu Zhao, and Marco Wiering. Shifting inductive bias with success-story¨ algorithm, adaptive Levin search, and incremental self-improvement. Machine Learning, 28: 105–130, 1997.
Haizhou Shi, Zihao Xu, Hengyi Wang, Weiyi Qin, Wenyuan Wang, Yibin Wang, and Hao Wang. Continual learning of large language models: A comprehensive survey. arXiv preprint arXiv:2404.16789, 2024.
David Silver, Aja Huang, Chris J Maddison, Arthur Guez, Laurent Sifre, George Van Den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, et al. Mastering the game of Go with deep neural networks and tree search. nature, 529(7587):484–489, 2016.
David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science, 362(6419):1140– 1144, 2018.
David Silver, Satinder Singh, Doina Precup, and Richard S Sutton. Reward is enough. Artificial Intelligence, 299:103535, 2021.
Richard S Sutton. Reinforcement learning: An introduction. A Bradford Book, 2018.
Richard S Sutton. The bitter lesson. Incomplete Ideas (blog), 13(1):38, 2019.
Gerald Tesauro et al. Temporal difference learning and td-gammon. Communications of the ACM, 38(3):58–68, 1995.
Graham Todd, Alexander Padula, Matthew Stephenson, Eric Piette, Dennis JNJ Soemers, and Ju-´ lian Togelius. GAVEL: Generating games via evolution and language models. arXiv preprint arXiv:2407.09388, 2024.
Michael Tomasello. The evolution of agency: Behavioral organization from lizards to humans. MIT Press, 2022.
Alexander Sasha Vezhnevets, John P Agapiou, Avia Aharon, Ron Ziv, Jayd Matyas, Edgar A
Due´nez-Guzm˜ an, William A Cunningham, Simon Osindero, Danny Karmon, and Joel Z Leibo.´ Generative agent-based modeling with actions grounded in physical, social, or digital space using concordia. arXiv preprint arXiv:2312.03664, 2023.
Oriol Vinyals, Igor Babuschkin, Wojciech M Czarnecki, Michael Mathieu, Andrew Dudzik, Juny-¨ oung Chung, David H Choi, Richard Powell, Timo Ewalds, Petko Georgiev, et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature, 575(7782):350–354, 2019.
Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, and Anima Anandkumar. Voyager: An open-ended embodied agent with large language models. arXiv preprint arXiv:2305.16291, 2023.
Norbert Wiener. The machine age / In 1949, he imagined an age of robots. MIT Archives / The New York Times, D:8, 1949 / 2013. URL www.nytimes.com/2013/05/21/science/ mit-scholars-1949-essay-on-machine-age-is-found.html.
Ludwig Wittgenstein. Tractatus Logico-Philosophicus. 1921.
Ludwig Wittgenstein. Philosophical investigations. 1953.
John Yang, Akshara Prabhakar, Karthik Narasimhan, and Shunyu Yao. InterCode: Standardizing and benchmarking interactive coding with execution feedback. In A. Oh, T. Naumann, A. Globerson, K. Saenko, M. Hardt, and S. Levine (eds.), Advances in Neural Information Processing Systems, volume 36, pp. 23826–23854. Curran Associates, Inc., 2023.
Yifan Zeng, Yiran Wu, Xiao Zhang, Huazheng Wang, and Qingyun Wu. Autodefense: Multi-agent llm defense against jailbreak attacks. arXiv preprint arXiv:2403.04783, 2024.