Исследователи используют идеи теории игр, чтобы улучшить большие языковые модели и сделать их более последовательными.
Представьте, что у вас есть друг, который дает разные ответы на один и тот же вопрос в зависимости от того, как вы его задали. «Какая столица Перу?» получит один ответ, а «Лима — столица Перу?» — другой. Вы, вероятно, немного обеспокоены умственными способностями вашего друга, и вам почти наверняка будет трудно доверять его ответам.
Именно это и происходит со многими большими языковыми моделями (LLM), сверхмощными инструментами машинного обучения, которые поддерживают ChatGPT и другие чудеса искусственного интеллекта. Генеративный вопрос, который является открытым, дает один ответ, а дискриминативный вопрос, который подразумевает необходимость выбора между вариантами, часто дает другой. «Происходит разрыв, когда один и тот же вопрос формулируется по-разному», — сказал Атул Пол Джейкоб, докторант Массачусетского технологического института.
Чтобы сделать ответы языковой модели более последовательными — и сделать модель более надежной в целом — Джейкоб и его коллеги придумали игру, в которой два режима модели направлены на поиск ответа, с которым они могут согласиться. Названная игрой в консенсус, эта простая процедура сталкивает LLM саму с собой, используя инструменты теории игр для повышения точности и внутренней согласованности модели.
«Исследования, изучающие самосогласованность в этих моделях, были весьма ограничены», — сказал Шаеган Омидшафии, главный научный сотрудник робототехнической компании Field AI. «Эта статья — одна из первых, которая решает эту проблему умным и систематическим способом, создавая игру, в которой языковая модель может играть сама с собой».
«Это действительно захватывающая работа», — добавил Ахмад Бейрами, научный сотрудник Google Research. По его словам, на протяжении десятилетий языковые модели генерировали ответы на подсказки одним и тем же способом. «С их новой идеей привнести игру в этот процесс исследователи MIT представили совершенно иную парадигму, которая потенциально может привести к потоку новых приложений».
Новая работа, которая использует игры для улучшения ИИ, контрастирует с прошлыми подходами, которые измеряли успех программы ИИ через её мастерство в играх. Например, в 1997 году компьютер Deep Blue от IBM победил гроссмейстера по шахматам Гарри Каспарова — это стало важной вехой для так называемых мыслящих машин. Девятнадцать лет спустя программа Google DeepMind под названием AlphaGo выиграла четыре из пяти игр у бывшего чемпиона по го Ли Седоля, открыв еще одну арену, в которой люди больше не господствовали. Машины также превзошли людей в шашках, покере для двух игроков и других играх с «нулевой суммой», в которых победа одного игрока неизменно означает проигрыш его противника.
Гораздо более сложной задачей для исследователей ИИ стала игра «Дипломатия» — любимая игра таких политиков, как Джон Ф. Кеннеди и Генри Киссинджер. Вместо двух противников в игре участвуют семь игроков, чьи мотивы трудно понять. Чтобы победить, игрок должен вести переговоры, заключая соглашения о сотрудничестве, которые любой из них может нарушить в любой момент. Дипломатия настолько сложна, что группа из Meta* была довольна, когда в 2022 году её ИИ программа Cicero показала «игру на уровне человека» в течение 40 игр. Хотя она и не победила чемпиона мира, Cicero выступила достаточно хорошо, чтобы войти в 10% лучших игроков против участников-людей.
В ходе проекта Джейкоб — член команды Meta* — был поражен тем фактом, что Cicero опиралась на языковую модель для генерации диалога с другими игроками. Он почувствовал неиспользованный потенциал. Целью команды, по его словам, было «создать лучшую языковую модель, чтобы играть в эту игру». Но что, если вместо этого они сосредоточатся на создании лучшей игры, чтобы повысить производительность больших языковых моделей?
В 2023 году Джейкоб начал изучать этот вопрос в Массачусетском технологическом институте, работая с Иканом Шеном, Габриэле Фариной и его научным руководителем Джейкобом Андреасом над тем, что впоследствии стало игрой в консенсус. Основная идея возникла из представления разговора между двумя людьми как кооперативной игры, в которой успех наступает, когда слушатель понимает, что пытается передать говорящий. В частности, игра в консенсус предназначена для согласования двух систем языковой модели — генератора, который обрабатывает генеративные вопросы, и дискриминатора, который обрабатывает дискриминативные вопросы.
После нескольких месяцев остановок и запусков команда воплотила этот принцип в полноценную игру. Сначала генератор получает вопрос. Он может исходить от человека или из уже существующего списка. Например, «Где родился Барак Обама?» Затем генератор получает несколько возможных ответов, скажем, Гонолулу, Чикаго и Найроби. Опять же, эти варианты могут исходить от человека, списка или поиска, выполняемого самой языковой моделью.
Но перед тем, как ответить, генератору также сообщают, должен ли он ответить на вопрос правильно или неправильно, в зависимости от результатов случайного подбрасывания монеты.
Если выпадает орел, то машина пытается ответить правильно. Генератор отправляет исходный вопрос вместе с выбранным ответом дискриминатору. Если дискриминатор определяет, что генератор намеренно отправил правильный ответ, каждый из них получает по одному очку в качестве своего рода стимула.
Если монета приземляется решкой, генератор отправляет то, что он считает неправильным ответом. Если дискриминатор решает, что ему намеренно дали неправильный ответ, они оба снова получают по очку. Идея здесь в том, чтобы стимулировать согласие. «Это как учить собаку трюку», — объяснил Джейкоб. «Вы даёте им лакомство, когда они делают правильно».
Генератор и дискриминатор также начинают с некоторых начальных «убеждений». Они принимают форму распределения вероятностей, связанных с различными вариантами выбора. Например, генератор может полагать, основываясь на информации, которую он почерпнул из интернета, что существует 80% вероятность того, что Обама родился в Гонолулу, 10% вероятность того, что он родился в Чикаго, 5% вероятность того, что он родился в Найроби и 5% вероятность того, что он родился в других местах. Дискриминатор может начать с другого распределения. Хотя два «игрока» по-прежнему вознаграждаются за достижение соглашения, они также получают урезанные баллы за слишком большое отклонение от своих первоначальных убеждений. Такое расположение побуждает игроков включать свои знания о мире — снова взятые из интернета — в свои ответы, что должно сделать модель более точной. Без чего-то подобного они могли бы согласиться на совершенно неправильный ответ, например, Дели, но все равно набирать баллы.
В конце концов, генератор и дискриминатор начинают больше соглашаться, поскольку они приходят к так называемому равновесию Нэша. Это, возможно, центральное понятие в теории игр. Оно представляет собой своего рода баланс в игре — точку, в которой ни один игрок не может улучшить свои личные результаты, меняя стратегии. Например, в игре «камень-ножницы-бумага» игроки добиваются лучших результатов, когда выбирают каждый из трех вариантов ровно в одной трети случаев, и они неизменно будут показывать худшие результаты с любой другой тактикой.
В игре в консенсус это может разыгрываться разными способами. Дискриминатор может заметить, что он получает очко, когда говорит «верно» каждый раз, когда генератор посылает слово «Гонолулу» для места рождения Обамы. Генератор и дискриминатор узнают, после повторной игры, что они будут вознаграждены за продолжение этого, и ни у кого не будет мотивации делать что-либо иное. Этот консенсус представляет собой один из многих возможных примеров равновесия Нэша для этого вопроса. Группа MIT также опиралась на модифицированную форму равновесия Нэша, которая включает предыдущие убеждения игроков и помогает поддерживать их ответы близкими к реальности.
Чистый эффект, как заметили исследователи, заключается в том, что языковая модель, играющая в эту игру, становится более точной и с большей вероятностью даёт один и тот же ответ, независимо от того, как задан вопрос. Чтобы проверить эффекты игры в консенсус, команда опробовала набор стандартных вопросов на различных языковых моделях среднего размера с 7-13 миллиардами параметров. Эти модели регулярно получали более высокий процент правильных ответов, чем модели, которые не играли, даже гораздо более крупные с 540 миллиардами параметров. Игра также улучшила внутреннюю согласованность модели.
В принципе, любая LLM могла бы выиграть от игры против самой себя, а 1000 раундов заняли бы всего несколько миллисекунд на стандартном ноутбуке. «Приятным преимуществом общего подхода, — сказал Омидшафии, — является то, что этот процесс вычислительно очень лёгкий, не требующий обучения или модификации базовой языковой модели».
После этого первоначального успеха Джейкоб теперь изучает другие способы внедрения теории игр в исследования LLM. Предварительные результаты показали, что уже сильная LLM может ещё больше улучшиться, играя в другую игру — предварительно названную игрой ансамбля — с произвольным количеством меньших моделей. Основная LLM будет иметь по крайней мере одну меньшую модель, выступающую в качестве союзника, и по крайней мере одну меньшую модель, играющую роль противника. Если основную LLM просят назвать президента Соединенных Штатов, она получает балл всякий раз, когда выбирает тот же ответ, что и её союзник, или когда выбирает ответ, отличный от ответа её противника. Эти взаимодействия с гораздо меньшими моделями могут не только повысить производительность LLM, показывают тесты, но и могут сделать это без дополнительного обучения или изменения параметров.
И это только начало. Поскольку множество ситуаций можно рассматривать как игры, инструменты теории игр можно задействовать в различных реальных ситуациях, сказал Ян Гемп, научный сотрудник Google DeepMind. В статье от февраля 2024 года он и его коллеги сосредоточились на сценариях переговоров, которые требуют более сложных обменов, чем просто вопросы и ответы. «Главная цель этого проекта — сделать языковые модели более стратегическими», — сказал он.
Одним из примеров, который он обсуждал на академической конференции, является процесс рассмотрения статьи для принятия журналом или конференцией, особенно после того, как первоначальная заявка получила суровую рецензию. Учитывая, что языковые модели назначают вероятности различным ответам, исследователи могут строить игровые деревья, похожие на те, что разработаны для игр в покер, отображающие доступные варианты и их возможные последствия. «Как только вы это сделаете, вы сможете начать вычислять равновесия Нэша, а затем ранжировать кучу опровержений», — сказал Гемп. По сути, модель говорит вам: вот что, по нашему мнению, вы должны сказать в ответ.
Благодаря преимуществам теории игр языковые модели смогут обрабатывать даже более сложные взаимодействия, а не ограничиваться проблемами типа «вопрос-ответ». «Большой выигрыш в будущем будет связан с более продолжительными разговорами», — сказал Андреас. «Следующий шаг — заставить ИИ взаимодействовать с человеком, а не просто с другой языковой моделью».
Джейкоб рассматривает работу DeepMind как дополнение к консенсусным и ансамблевым играм. «На высоком уровне оба эти метода объединяют языковые модели и теорию игр», — сказал он, даже если цели несколько различаются. В то время как группа Гемпа переводит обычные ситуации в игровой формат, чтобы помочь в принятии стратегических решений, Джейкоб говорит: «Мы используем то, что знаем о теории игр, для улучшения языковых моделей в общих задачах».
Прямо сейчас эти усилия представляют собой «две ветви одного дерева», сказал Джейкоб, — два разных способа улучшить функционирование языковых моделей. «Мое видение заключается в том, что через год или два эти две ветви сойдутся».
*признана экстремистской организацией в России
Автор перевода @arielf
НЛО прилетело и оставило здесь промокод для читателей нашего блога:
-15% на заказ любого VDS (кроме тарифа Прогрев) — HABRFIRSTVDS.