Ирина Барская, Head Data Scientist в Яндексе, которая работала над голосовым ассистентом «Алиса» и Yasmina для рынка Саудовской Аравии, написала для портала Unite.ai обзор основных бенчмарков, которые используются для оценки работы больших языковых моделей. А мы этот обзор перевели.
Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.
В последние годы большую популярность приобрели большие языковые модели (LLM). Вы, вероятно, уже заметили это. Уникальная способность LLM понимать команды на человеческом языке делает их незаменимым инструментом для интеграции в бизнес-процессы.
Они могут поддерживать критически важные рабочие процессы и автоматизировать задачи, повышая эффективность работы. Кроме того, LLM способны на гораздо большее, чем может представить себе среднестатистический пользователь.
И по мере того как наша зависимость от них растет, необходимо уделять больше внимания мерам, обеспечивающим необходимую точность и надежность. Это глобальная задача, затрагивающая целые институции, но в бизнес-среде уже существует несколько бенчмарков, которые можно использовать для оценки производительности LLM в различных областях. Эти бенчмарки позволяют проверить способности модели в понимании, построении логики, математике и других аспектах, а результаты оценки определяют, готова ли модель к применению в бизнесе.
В этой статье я собрала подробный список самых популярных бенчмарков для оценки LLM. Мы обсудим каждый из них в деталях и посмотрим, как разные LLM соответствуют критериям оценки. Но сначала давайте подробнее рассмотрим процесс оценки LLM.
Как и другие модели искусственного интеллекта, большие языковые модели (LLM) необходимо оценивать по определённым бенчмаркам, которые измеряют различные аспекты их производительности: знания, точность, надёжность и последовательность. Обычно оценка включает в себя следующие элементы:
Понимание запросов пользователей: Оценка способности модели точно понимать и интерпретировать широкий спектр пользовательских запросов.
Проверка ответов: Сравнение ответов, сгенерированных ИИ, с доверенной базой знаний для проверки их корректности и релевантности.
Устойчивость: Измерение того, насколько хорошо модель справляется с неоднозначными, неполными или зашумлёнными данными.
Оценка LLM предоставляет разработчикам возможность эффективно выявлять и устранять ограничения модели, улучшая общее качество взаимодействия пользователей с системой. Если LLM прошла тщательную оценку, она будет достаточно точной и надёжной для работы с различными реальными задачами, включая те, которые содержат неоднозначные или неожиданные запросы.
Большие языковые модели (LLM) являются одними из самых сложных технологий на сегодняшний день и могут справляться даже с самыми сложными задачами. Поэтому процесс их оценки должен быть столь же сложным, проверяя как логические рассуждения модели, так и её техническую точность.
Бенчмарк использует определённые наборы данных, метрики и задачи оценки для тестирования производительности LLM, что позволяет сравнивать различные модели и измерять их точность. Это, в свою очередь, способствует прогрессу в отрасли за счёт улучшения производительности моделей.
Вот некоторые из наиболее типичных аспектов производительности LLM:
Знания: Необходимо проверять знания модели в различных областях. Для этого предназначен бенчмарк знаний. Он оценивает, насколько эффективно модель может вспоминать информацию из разных сфер, таких как физика, программирование, география и т.д.
Логическое мышление: Этот аспект подразумевает тестирование способности модели «думать» пошагово и делать логические выводы. Обычно это включает сценарии, где модель должна выбрать наиболее правдоподобное продолжение или объяснение, основываясь на повседневных знаниях и логическом рассуждении.
Понимание прочитанного: Модели должны отлично справляться с интерпретацией естественного языка и генерировать соответствующие ответы. Тестирование заключается в ответах на вопросы по текстам, что позволяет оценить понимание, способность делать выводы и удерживать детали. Это похоже на школьные тесты по чтению.
Понимание кода: Этот аспект оценивает способность модели понимать, писать и отлаживать код. Эти бенчмарки предполагают выполнение задач по программированию или решению проблем, которые модель должна правильно решить, охватывая различные языки программирования и парадигмы.
Общие знания: Здесь оценивается способность модели к обобщённым знаниям о мире. Такие наборы данных обычно включают вопросы, требующие для правильного ответа обширных энциклопедических знаний, что отличает их от более узкоспециализированных бенчмарков знаний.
Этот бенчмарк создан для проверки уровня фактических знаний LLM по различным темам, таким как гуманитарные науки, социальные науки, история, компьютерные науки и даже право. Он включает 57 вопросов и 15 тысяч задач, направленных на то, чтобы убедиться в высоких способностях модели к рассуждению. Это делает MMLU полезным инструментом для оценки фактических знаний и логических рассуждений LLM по различным темам.
В последнее время MMLU стал ключевым бенчмарком для оценки LLM в вышеупомянутых областях. Разработчики стремятся оптимизировать свои модели, чтобы превзойти другие в этом бенчмарке, что делает его фактически стандартом для оценки продвинутых навыков рассуждений и знаний в LLM. Крупные корпоративные модели показали впечатляющие результаты на этом бенчмарке, включая GPT-4-omni с результатом 88,7%, Claude 3 Opus — 86,8%, Gemini 1.5 Pro — 85,9% и Llama-3 70B — 82%. Небольшие модели, как правило, показывают не такие потрясающие результаты, обычно не превышая 60-65%, но недавнее достижение модели Phi-3-Small-7b с результатом 75,3% заслуживает внимания.
Однако у MMLU есть свои недостатки: известны проблемы с неоднозначными вопросами, неправильными ответами и недостатком контекста. Многие также считают, что некоторые задачи слишком просты для полноценной оценки LLM.
Важно отметить, что такие бенчмарки, как MMLU, не всегда точно отражают реальные сценарии. Если LLM показывает высокий результат на этом бенчмарке, это не обязательно означает, что модель стала экспертом в конкретной области. Бенчмарки обладают ограниченным охватом и часто полагаются на вопросы с выбором ответа, что никогда не может полностью передать всю сложность и контекст реальных взаимодействий. Настоящее понимание требует не только знания фактов, но и умения применять эти знания динамично, что включает критическое мышление, решение проблем и контекстное понимание. По этим причинам LLM необходимо постоянно совершенствовать и обновлять, чтобы поддерживать актуальность и эффективность бенчмарков.
Этот бенчмарк оценивает логическое мышление LLM, используя набор данных всего из 448 вопросов. Его разработали эксперты в таких областях, как биология, физика и химия.
Каждый вопрос проходит следующий процесс валидации:
1. Эксперт по данной теме отвечает на вопрос и предоставляет подробную обратную связь.
2. Автор вопроса вносит изменения на основе этой обратной связи.
3. Второй эксперт отвечает на пересмотренный вопрос.
Этот процесс помогает убедиться, что вопросы объективны, точны и представляют сложность для языковой модели. Даже опытные аспиранты достигают точности всего 65% на этих вопросах, в то время как GPT-4-omni набирает лишь 53,6%, что подчеркивает разрыв между человеческим и машинным интеллектом.
Из-за высоких требований к квалификации экспертов набор данных в действительности достаточно мал, что несколько ограничивает его статистическую мощность для сравнения точности и требует значительных эффектов для выявления различий. Эксперты, которые создали и валидировали эти вопросы, были наняты через Upwork, что может внести предвзятость, основанную на их опыте и охваченных темах.
164 задачи по программированию — настоящее испытание для проверки навыков программирования у LLM. Это HumanEval, бенчмарк, предназначенный для тестирования базовых навыков написания кода у больших языковых моделей (LLM). Для оценки функциональной точности сгенерированного кода используется метрика pass@k, которая вычисляет вероятность того, что хотя бы один из k лучших образцов кода, созданных моделью, успешно пройдет тестовые кейсы.
Хотя набор данных HumanEval включает сигнатуры функций, docstring, тела кода и несколько модульных тестов, он не охватывает весь спектр реальных задач программирования, что не позволяет в полной мере оценить способность модели создавать правильный код для разнообразных сценариев.
Бенчмарк MBPP состоит из 1000 вопросов по программированию на Python, собранных с помощью краудсорсинга. Эти задачи начального уровня сосредоточены на фундаментальных навыках программирования. Для оценки производительности модели используются подходы few-shot и fine-tuning, при этом более крупные модели обычно показывают лучшие результаты на этом наборе данных. Однако, поскольку в наборе данных в основном содержатся задачи начального уровня, он все же не полностью отражает сложности и вызовы реальных приложений.
Хотя большинство LLM хорошо справляются с формулированием стандартных ответов, математическое рассуждение представляет для них гораздо большую проблему. Почему? Потому что оно требует навыков понимания вопроса, пошагового логического подхода с математическим обоснованием и получения правильного ответа.
Метод «Цепочка рассуждений» (Chain of Thought, CoT) разработан для оценки LLM на математических бенчмарках. Этот метод предполагает, что модели объясняют свой пошаговый процесс рассуждений при решении задачи. Такой подход имеет несколько преимуществ. Он делает процесс рассуждений более прозрачным, помогает выявить ошибки в логике модели и позволяет более детально оценить её навыки решения задач. Разбивая сложные задачи на серию более простых шагов, CoT может улучшить производительность модели на математических бенчмарках и предоставить более глубокое понимание её способностей к рассуждению.
Одним из известных бенчмарков для оценки математических способностей LLM является набор данных GSM8K. GSM8K состоит из 8,5 тысяч задач по математике для средней школы, которые требуют нескольких шагов для решения, и решения в основном включают выполнение последовательности элементарных вычислений. Обычно более крупные модели или те, которые специально обучены для математического рассуждения, показывают лучшие результаты на этом бенчмарке, например, модели GPT-4 достигают 96,5%, в то время как DeepSeekMATH-RL-7B немного отстает с результатом 88,2%.
Хотя GSM8K полезен для оценки способности модели решать задачи по математике на уровне школьной программы, он может не полностью отражать способность модели справляться с более сложными или разнообразными математическими задачами, что ограничивает его эффективность как всеобъемлющей меры математических способностей.
Математический набор данных был разработан для устранения недостатков бенчмарков, таких как GSM8K. Этот набор данных более обширен и охватывает задачи от элементарной арифметики до школьных и даже университетских уровней. Его также сравнивают с результатами людей: аспирант по информатике, который не любит математику, достигает точности 40%, а обладатель золотой медали — 90%.
Этот набор данных предоставляет более всестороннюю оценку математических способностей LLM. Он подтверждает, что модель умеет работать с базовой арифметикой и компетентна в таких сложных областях, как алгебра, геометрия и математический анализ. Однако увеличенная сложность и разнообразие задач могут затруднить моделям достижение высокой точности, особенно тем, которые не были специально обучены на широком спектре математических концепций. Кроме того, различные форматы задач в математическом наборе данных могут привести к несоответствиям в производительности модели, что усложняет выводы о её общей математической компетенции.
Использование метода «Цепочка рассуждений» (Chain of Thought) с математическим набором данных может усилить оценку, так как этот метод раскрывает пошаговые способности LLM к рассуждению на всём спектре математических задач. Такой комбинированный подход обеспечивает более надёжную и детализированную оценку истинных математических возможностей LLM.
Оценка понимания прочитанного помогает определить способность модели понимать и обрабатывать сложные тексты, что особенно важно для таких задач, как поддержка клиентов, генерация контента и поиск информации. Существует несколько бенчмарков, разработанных для оценки этой способности, каждый из которых имеет уникальные особенности, способствующие всесторонней оценке возможностей модели.
Бенчмарк RACE включает почти 28,000 текстов и 100,000 вопросов, собранных с экзаменов по английскому языку для китайских школьников среднего и старшего возраста от 12 до 18 лет. Вопросы и ответы не ограничиваются только информацией, представленной в текстах, что делает задачи еще более сложными.
Этот бенчмарк охватывает широкий спектр тем и типов вопросов, что обеспечивает тщательную оценку, и включает задания различного уровня сложности. Кроме того, вопросы в RACE специально разработаны для проверки навыков чтения у людей и созданы экспертами в данной области.
Однако у этого бенчмарка есть и недостатки. Поскольку он разработан на основе китайских образовательных материалов, он может содержать культурные предвзятости, которые не отражают глобального контекста. Также высокий уровень сложности некоторых вопросов не всегда соответствует типичным задачам в реальной жизни, что может привести к неточным оценкам производительности.
Ещё одним важным подходом является DROP (Discrete Reasoning Over Paragraphs), который ставит перед моделями задачу выполнения дискретных рассуждений на основе параграфов. Этот бенчмарк включает 96,000 вопросов для проверки способностей LLM к рассуждению, вопросы берутся из Википедии и создаются с помощью краудсорсинга на платформе Amazon Mechanical Turk. Вопросы DROP часто требуют от моделей выполнения математических операций, таких как сложение, вычитание и сравнение, на основе информации, разбросанной по всему тексту.
Эти вопросы сложны. Они требуют от LLM умения находить несколько чисел в тексте и складывать или вычитать их для получения окончательного ответа. Крупные модели, такие как GPT-4 и PaLM, достигают точности 80% и 85% соответственно, в то время как люди достигают 96% на наборе данных DROP.
Тестирование здравого смысла в языковых моделях представляет собой интересную и важную задачу, поскольку оно оценивает способность модели делать суждения и выводы, соответствующие нашему — человеческому — мышлению. В отличие от нас, кто формирует целостное представление о мире через практический опыт, языковые модели обучаются на огромных наборах данных, не имея при этом врожденного понимания контекста. Это означает, что модели испытывают трудности с задачами, требующими интуитивного понимания повседневных ситуаций, логического мышления и практических знаний, что очень важно для создания надежных и устойчивых AI-приложений.
HellaSwag был разработан Роуэном Зеллерсом и его коллегами из Вашингтонского университета и Института искусственного интеллекта Аллена. Этот бенчмарк предназначен для проверки способности модели предсказывать наиболее правдоподобное продолжение заданного сценария. HellaSwag создаётся с использованием метода Adversarial Filtering (AF), где серия дискриминаторов итеративно отбирает машинно-сгенерированные неправильные ответы. Этот метод создаёт набор данных, который включает тривиальные для человека примеры, но сложные для моделей, что приводит к так называемой «золотой середине» сложности.
Хотя HellaSwag был сложен для более ранних моделей, современные модели, такие как GPT-4, достигли уровня производительности, близкого к человеческой точности, что свидетельствует о значительном прогрессе в этой области. Однако эти результаты подчеркивают необходимость в постоянном обновлении бенчмарков, чтобы они соответствовали темпам развития возможностей искусственного интеллекта.
Набор данных Openbook состоит из 5957 вопросов по естественным наукам с множественным выбором на уровне начальной школы. Эти вопросы были собраны с открытых экзаменов и разработаны для оценки понимания предмета у людей.
Бенчмарк Openbook требует от моделей способности к рассуждению, выходящей за рамки простого поиска информации. На сегодняшний день GPT-4 достиг самой высокой точности — 95,9%.
OpenbookQA создан по аналогии с экзаменами с открытой книгой и включает 5957 вопросов с множественным выбором на уровне начальной школы по естественным наукам. Эти вопросы предназначены для проверки понимания 1326 основных научных фактов и их применения в новых ситуациях.
Как и в случае с Hellaswag, ранние модели считали OpenbookQA сложным, но современные модели, такие как GPT-4, достигли уровня производительности, близкого к человеческому. Этот прогресс подчёркивает важность разработки ещё более сложных и тонких бенчмарков для дальнейшего расширения границ понимания ИИ.
Хотя бенчмарки действительно предоставляют стандартизированный подход к оценке производительности LLM, они могут быть и обманчивыми. Организация Large Model Systems Organization утверждает, что хороший бенчмарк для LLM должен быть масштабируемым, способным оценивать новые модели с относительно небольшим количеством испытаний и обеспечивать уникальный порядок ранжирования всех моделей. Однако есть причины, по которым этого может быть недостаточно. Вот некоторые из них:
Это распространенная проблема, возникающая, когда данные для обучения пересекаются с данными для тестирования, что приводит к некорректной оценке. Если модель уже сталкивалась с некоторыми тестовыми вопросами во время обучения, её результаты могут не точно отражать её реальные возможности. Идеальный бенчмарк должен минимизировать запоминание и более точно отражать реальные сценарии.
Лидеры рейтингов бенчмарков LLM используются для сравнения производительности моделей в различных задачах. Однако опора на эти рейтинги для сравнения моделей может ввести в заблуждение. Простые изменения в тестах бенчмарков, такие как изменение порядка вопросов, могут изменить рейтинг моделей на целых восемь позиций. Кроме того, модели могут показывать разные результаты в зависимости от методов оценки, что подчеркивает важность учета смещений в оценке.
В реальном мире взаимодействие с LLM включает создание запросов, чтобы генерировать нужные ответы ИИ. Результаты LLM зависят от эффективности запросов, и бенчмарки разработаны для тестирования осведомленности моделей о контексте. Однако, хотя бенчмарки направлены на оценку контекстной осведомленности LLM, они не всегда напрямую переносятся на производительность в реальных условиях. Например, если модель набирает 100% на наборе данных бенчмарка, таком как LSAT, это не гарантирует такой же уровень точности в практических приложениях. Это подчеркивает важность учета открытой природы реальных задач при оценке LLM.
Теперь вы знаете, что бенчмарки не всегда являются лучшим вариантом, поскольку они не могут обобщать все возможные проблемы. Однако существуют и другие подходы.
Они идеально подходят для тестирования конкретных поведений и функциональностей в узкоспециализированных сценариях. Например, если LLM предназначена для медицинских специалистов, наборы данных, собранные в медицинских условиях, будут эффективно отражать реальные сценарии. Эти пользовательские бенчмарки могут сосредоточиться на понимании языка, производительности и уникальных контекстных требованиях, специфичных для данной области. Совмещая бенчмарки с возможными реальными сценариями, вы можете убедиться, что LLM не только хорошо справляется в общем, но и превосходно выполняет задачи, для которых она предназначена. Это помогает выявлять и устранять любые пробелы или слабые места в возможностях модели на ранних этапах.
Если вы хотите, чтобы ваши оценки демонстрировали достоверность, крайне важно иметь пайплайн бенчмарков без утечки данных. Утечка данных происходит, когда данные бенчмарка включены в корпус предобучения модели, что приводит к искусственно завышенным показателям производительности. Чтобы этого избежать, бенчмарки должны быть перекрёстно проверены с данными предобучения. Также необходимо принимать меры для предотвращения использования ранее виденной информации. Это может включать использование частных или недавно созданных наборов данных, которые хранятся отдельно от процесса обучения модели — это обеспечит, что полученные метрики производительности отражают способность модели хорошо обобщать информацию.
Автоматизированные метрики сами по себе не могут охватить весь спектр производительности модели, особенно когда дело касается очень тонких и субъективных аспектов понимания и генерации языка. Здесь человеческая оценка предоставляет гораздо более точную оценку:
Привлечение профессионалов, которые могут предоставить детальные и надёжные оценки, особенно для специализированных областей.
Краудсорсинг! Платформы, такие как Amazon Mechanical Turk, позволяют быстро и недорого собирать разнообразные человеческие суждения.
Обратная связь от сообщества: Использование платформ, таких как арена лидеров LMSYS, где пользователи могут голосовать и сравнивать модели, добавляет дополнительный уровень понимания. Например, LMSYS Chatbot Arena Hard особенно эффективен в выявлении тонких различий между лучшими моделями через прямое взаимодействие пользователей и их голоса.
Без оценки и бенчмарков мы бы не могли узнать, насколько точно и применимо LLM справляется с реальными задачами. Однако, как я уже писала, бенчмарки не являются полностью безупречным способом проверки, они могут приводить к пробелам в производительности LLM. Это также может замедлить разработку действительно надёжных моделей.
В идеальном мире LLM должны понимать запросы пользователей, выявлять ошибки в запросах, выполнять задачи согласно инструкциям и генерировать надёжные результаты. Уже достигнутые результаты впечатляют, но всё ещё не идеальны. Именно здесь полезны узкоспециализированные бенчмарки, а также оценка человеком и обнаружение утечек данных в бенчмарках. Используя эти подходы, у нас появляется возможность создавать действительно надёжные LLM.
Подписывайтесь на наш телеграм‑канал «Голос Технократии». Каждое утро мы публикуем новостной дайджест из мира ИТ, а по вечерам делимся интересными и полезными статьями.