Аналитический центр red_mad_robot продолжает разбирать ключевые исследования в сфере интеллектуальных систем и генеративного поиска. На этот раз рассказываем про архитектуру AI Search Paradigm от Baidu — новой системы интеллектуального поиска, построенной на LLM и мультиагентных методах.
В мире избытка информации поиск знаний стал ключевым когнитивным навыком. Сначала его обеспечивали классические системы Information Retrieval (IR), предназначенные для поиска и извлечения релевантной информации из источников данных на основе ключевых слов, но они не учитывали смысл. Это привело к развитию семантического поиска по смыслу и методов Learning-to-Rank (LTR) — в нём алгоритмы улучшают ранжирование за счёт оценивания всего списка в совокупности а не отдельных элементов — они улучшили ранжирование результатов по релевантности, но не давали готовых ответов. С появлением Large Language Model (LLM) стало возможно сразу генерировать ответы на основе запроса и контекста. Однако современные системы вроде Retrieval Augmented Generation (RAG) всё ещё ограничены: они плохо справляются с многошаговыми запросами, противоречиями и не умеют глубоко анализировать и планировать.
В ответ на текущие вызовы китайский бигтех Baidu — знаменитый одноименным поисковиком, занимающим первое место в Китае и пятое на глобальном рынке — представляет AI Search Paradigm. Это концепция мультиагентного поиска, где несколько специализированных агентов совместно решают задачи. Система динамически подбирает состав агентов для трёх типов запросов: простых, средних и сложных.
Master — координирует процесс, анализирует запрос, формирует команду агентов, адаптирует стратегию при ошибках.;
Planner — разбивает задачу на подзадачи и подбирает нужные инструменты;
Executor — выполняет подзадачи от Planner, используя внешние источники и адаптируясь к результатам;
Writer — собирает и оформляет финальный ответ, делая его связным, точным и многогранным.
Task Planner разбивает сложный запрос на подзадачи, выстраивает их по порядку и подбирает инструменты для решения. В отличие от подхода «нашёл — ответил», он действует активно: планирует, исполняет и при необходимости перепланирует. Классические RAG-системы, включая продвинуты ReAct и RQ-RAG, часто дают неточные ответы и не умеют координировать многошаговые решения. AI Search Paradigm с Task Planner строит граф подзадач DAG, где узлы — подзадачи, а связи — зависимости, подключает нужные сервисы и адаптирует план в процессе. Для этого в связке с планировщиком работают другие инструменты.
Model-Context Protocol (MCP) — универсальный HTTP + JSON-RPC интерфейс, позволяющий безопасно публиковать, вызывать и отслеживать инструменты с чёткой типизацией. Ранние LLM-системы с function calling были раздроблены: разные вендоры использовали несовместимые JSON-схемы, что мешало обмену инструментами и учёту затрат и безопасности. AI Search Paradigm решает это через MCP — устраняет фрагментацию и создаёт единое и безопасное пространство инструментов.
Динамическая граница возможностей — решает проблему превышения числа инструментов для пошагового решения задачи. Граница возможностей LLM включает умение рассуждать, внутренние знания и доступ к внешним инструментам. Интеграция инструментов, например, веб-поиска или вычислений, значительно расширяет возможности. В AI Search Paradigm система быстро выбирает релевантное подмножество инструментов под конкретный запрос, учитывая возможности LLM и формирует эффективную границу возможностей для грамотного планирования.
Уточнение документации API методом DRAFT — автоматически улучшает описание документации, которая критическа важна для AI Search Paradigm. Процесс автоматизирован и итеративен, управляется обратной связью и проходит в три этапа, завершаясь в момент достижения нужной точности:
Experience Gathering — LLM тестирует инструмент, выявляя пробелы и неточности;
Learning from Experience — анализирует несоответствия, формулируя точечные улучшения;
Documentation Rewriting — создаётся ясная для LLM документация.
Кластеризация инструментов в MCP — позволяет Task Planner точно понимать функции внешних инструментов. Широкие категории, такие как веб-поиск, мешают выбрать оптимальный API и затрудняют замену при сбоях. AI Search решает это с помощью автоматической кластеризации API по функциональному сходству: LLM генерирует описания API → cоздаются их семантические эмбеддинги → алгоритм k-means++ группирует функции так, чтобы инструменты были максимально похожи по назначению внутри и различались между кластерами.
Извлечение инструментов методом COLT — Collaborative Learning for Tool retrieval — находит связанные по смыслу инструменты через обучение на графах. AI Search использует двубашенную модель: одна башня кодирует запрос, другая — инструменты, сравнивая эмбеддинги для выбора релевантных. COLT дополняет этот процесс, учитывая семантику и функциональные связи между инструментами.
Планирование задач по DAG — Directed Acyclic Graph — помогает AI Search разбирать сложные многошаговые запросы. Каждая вершина графа — подзадача, связанная с инструментом или вычислением Executor, а рёбра отражают зависимости между ними. Task Planner превращает цепочку рассуждений в структурированный JSON-граф по принципу chain-of-thought → structured-sketch. Такой формат экономит токены, позволяет выполнять подзадачи параллельно и при сбоях перепланировать только нужный фрагмент графа без перезапуска всей структуры.
Контроль выполнения под руководством Master — управляет DAG в реальном времени, отслеживая запуск узлов и полноту результатов. При сбоях Master поручает Task Planner перепланировать проблемные участки или добавить подзадачи для восстановления данных. Цикл observe → evaluate → replan → act обеспечивает гибкую реакцию на ошибки и надёжный итоговый результат.
Оптимизация планирования с помощью RL — Reinforcement Learning — обучает Task Planner без ручной разметки, оценивая планы по функции награды с четырьмя компонентами:
точность результата;
реакция пользователя на подзадачи;
соблюдение формата;
исполнимость шагов.
Для оптимизации используется метод Group Relative Policy Optimization (GRPO), в нём награда нормализуется относительно среднего по группе. Такой подход стабилизирует обучение и делает поведение агентов согласованным.
После составления плана Task Planner, выполнение подзадач берет на себя Executor, в том числе используя веб-поиск для доступа к актуальной информации вне знаний модели.
После этого полученные документы ранжируются с помощью одной из трёх стратегий:
Pointwise — оценивает релевантность каждого документа отдельно;
Pairwise — сравнивает документы попарно;
Listwise — упорядочивает целый список файлов.
Для сложных запросов AI Search Paradigm комбинирует извлечение и рассуждение LLM, формируя контекст из наиболее релевантных документов и повышая точность итогового ответа.
Разметка LLM — аннотирует большие объёмы данных, обеспечивая согласованность и снижая влияние человеческих предвзятостей. Система использует listwise-методы ранжирования, например, RankGPT и TourRank, сочетая качество и эффективность.
RankGPT применяет подход sliding window, чтобы ранжировать большие наборы документов, разбивая их на управляемые сегменты без превышения контекстного окна модели.
TourRank, вдохновлённый принципом спортивных турниров, делит документы на группы, отбирает релевантные в несколько раундов и использует систему очков в параллельных «турнирах». Такой подход повышает точность, устойчивость и масштабируемость аннотации.
Выбор источников — подбирает качественные ссылки под предпочтения LLM. При сложных запросах система извлекает несколько вариантов и передаёт их в модель как контекст для генерации ответа, а затем связывает с источниками, подтверждающими содержание ссылок. Механизм обратной связи уточняет стратегию, исходя из удовлетворённости пользователей, улучшая будущий выбор ссылок для схожих запросов.
Награда за генерацию используется как обратная связь в цикле RL, где извлечение, ранжирование и генерация вместе повышают качество ответов. Ранжировщик применяет разные политики, например, по релевантности или авторитетности, генерирует ответы, сравнивает их с эталоном и получает награду — это позволяет системе адаптивно улучшать стратегии ранжирования.
Дистилляция ранжирования — переносит логику ранжирования от модели-учителя к модели-ученику. Учитель формирует итоговое ранжирование и пары документов, по которым ученик обучается с помощью функции потерь RankNet. Это позволяет усваивать предпочтения и эффективно использовать их для точного и быстрого ранжирования в реальных условиях.
AI Search Paradigm использует облегчённую Llama-Tiny, которая формирует векторы запросов, исходя из особенностей пользователя, а документы — с учётом содержания и метаданных. Такой подход объединяет данные разных форматов, включая изображения, в общем векторном пространстве, обеспечивая более точный, интеллектуальный и персонализированный поиск.
Ранжирование тоже стало легче. В PLM-системах, к примеру, BERT и ERNIE, документы кодировались языковой моделью, а внешние признаки — отдельно, что снижало точность. Подход с LLM устраняет это: запрос, заголовок и текст кодируются совместно с внешними признаками, а специализированная модель анализирует весь контекст, включая поведение пользователя, для точной финальной оценки.
Переносим внимание на работу Writer, от которого зависит качество итогового ответа системы, ведь в документах из поиска нередко встречаются ошибки. Главные требования к Writer можно сформулировать как правило «трёх H» — Helpfulness, Harmlessness, Honesty — полезность, безвредность и честность. Writer использует явную и обратную связь пользователей, например, клики, для надёжности, точного соответствия запросу и совместной работы с другими агентами.
Adversarial Tuning Multi-Agent (ATM) — повышает устойчивость RAG к «шумным» документам. В реальных сценариях такие документы снижают точность ответов. ATM решает эту проблему через мультиагентный тюнинг с элементами состязательного обучения.
ATM включает два компонента: Attacker добавляет помехи в извлечённые документы, а Generator учится сохранять корректность ответов несмотря на искажения.
Attacker создаёт шум двумя способами:
Fabrication Generation — генерирует правдоподобные, но бесполезные фрагменты, близкие по смыслу к запросу, и вставляет их в выборку;
List Permutation — переставляет и дублирует документы, чтобы скрыть важную информацию и проверить чувствительность модели к порядку данных.
Generator должен различать полезные и ложные сигналы, игнорировать шум и поддерживать точность генерации.
Процесс обучения проходит в два этапа:
Начальное обучение — Generator осваивает базовые RAG-навыки с помощью Supervised fine-tuning (SFT) — отвечает по оригинальным документам, без документов и при извлечении релевантных источников;
Итеративный тюнинг — Attacker и Generator обучаются поочерёдно — первый усиливает шум, второй адаптируется, повышая устойчивость.
Эффективность Attacker оценивается по тому, насколько он осложняет работу Generator. Сам Generator оптимизируется по функции потерь Multi-agent Iterative Tuning Optimization (MITO), которая сочетает SFT для корректности и минимизацию расхождений между ответами на нормальные и зашумлённые документы.
В итоге система достигает высокой устойчивости: Generator сохраняет точность даже при наличии шума и манипуляций, что критически важно для надёжности RAG-систем в реальных условиях.
Preference-Aligned Retrieval-Augmented Generation (PA-RAG) — адаптирует LLM под задачи RAG. Метод помогает модели точнее работать с извлечёнными данными и сохранять устойчивость к шуму.
PA-RAG фокусируется на трёх аспектах:
Информативность ответа — эффективно использует релевантные документы и формирует содержательные ответы;
Надёжность ответа — сохраняет точность и логику при шумных источниках;
Качество цитирования — каждое утверждение связано с соответствующим источником.
Обучение проходит в два этапа:
Instruction fine-tuning — развивает базовые RAG-навыки: генерацию вопросов, отбор качественных документов, проверку и переписывание цитат;
Оптимизация по предпочтениям — улучшает три аспекта по данным «вход + лучший/худший ответ», обучаясь поочерёдно и независимо для каждого, чтобы избежать деградации качества.
Reinforcement Learning with Human Behaviors (RLHB) — обучает LLM с опорой на реальные паттерны поведения пользователей. В отличие от RLHF и DPO, RLHB не требует трудоёмкой разметки и отражает реальные сценарии онлайн-взаимодействия.
Система включает две модели: генератор создаёт ответы, а дискриминатор оценивает, насколько они соответствуют поведению пользователей. Обучение проходит в соревновательном формате, где сигналом служат реальные пользовательские действия — явные, например, лайки и дизлайки, а также неявные, скажем, просмотры.
Эти сигналы преобразуются в числовое вознаграждение через reward shaping. Дискриминатор определяет, насколько пара «запрос–ответ» отражает реальное поведение, а политика генератора оптимизируется по совокупному сигналу — оценке дискриминатора и штрафу за отклонение от исходной политики, рассчитанной по методу KL-дивергенции.
Multi-Module Joint Optimization for RAG (MMOA-RAG) — совместная оптимизация нескольких агентов — рассматривает систему как задачу многоагентного обучения с подкреплением. Алгоритм Multi-Agent PPO (MAPPO) согласует цели трёх ключевых модулей: Task Planner — формулирует запрос, Executor — отбирает релевантные документы, Writer — генерирует финальный ответ. Все они работают на общей архитектуре LLM для повышения эффективности.
Оптимизация основана на общей функции награды, направляющей агентов к единой цели — высокому качеству ответа. Вводятся штрафы за неэффективные действия: Planner — за избыточные подзадачи, Executor — за нерелевантные документы, Writer — за слишком длинные или неинформативные ответы. Такой подход обеспечивает координацию и синергию между агентами, улучшая итоговое качество генерации. Дополнительно используется SFT, чтобы агенты точнее следовали инструкциям и сокращали объём исследований в MARL.
Поисковые AI-системы вроде Perplexity обслуживают миллионы пользователей и работают на LLM с архитектурой Transformer. Однако рост размера моделей и квадратичная сложность по длине ввода делают их вычислительно дорогими и увеличивают задержки инференции. Чтобы снизить издержки и ускорить работу, Baidu применяет двухуровневую оптимизацию LLM — алгоритмическую, направленную на облегчение моделей, и инфраструктурную, обеспечивающую быстрое и эффективное исполнение.
Локальное внимание — уменьшает вычислительную сложность механизма внимания, ограничивая диапазон обрабатываемых токенов. Полный контекст требуется не всегда, поэтому локальное внимание может заменить его без заметных потерь качества и внедряться как в уже обученные модели, так и на этапе инференса.
К таким методам относятся linear attention (MiniMax), RWKV и Mamba. Более продвинутые решения, например LightTransfer, избирательно заменяют полное внимание более эффективными механизмами, а Liger переиспользует веса модели, создавая «врата» для линейного по времени инференса. Все эти подходы используют оптимизированные библиотеки вроде FlashAttention, что делает их практически применимыми и вычислительно эффективными.
Прунинг модели — удаляет из весовых матриц избыточные параметры, снижая объём данных и вычислительную нагрузку при инференсе.
Различают три типа прунинга:
Неструктурный — удаляет отдельные веса, делая модель разреженной; экономит память, но требует специализированных библиотек и оборудования;
Структурный — убирает целые блоки, формируя компактную плотную модель, пригодную для стандартного «железа». Среди современных подходов — Layer Collapse (LaCo), который удаляет слои, сохраняя функцию модели, и SlimGPT, быстро определяющий, какие блоки можно безопасно исключить;
Полуструктурный — отбрасывает группы параметров, упорядоченные особым образом, что сохраняет совместимость с обычными ускорителями. Здесь выделяется Post-Training Pruning (PTP), оценивающий не только веса, но и активации, чтобы удалить наименее значимые параметры.
Сокращение длины вывода — решает проблему несоответствия между краткими запросами и длинными ответами LLM, что снижает затраты на инференс. Существуют три основных подхода:
На основе промптов — LLM сама оценивает лимит токенов для кратких ответов — например, TALE-EP задаёт бюджет токенов прямо в промпте, чтобы ответы оставались точными, но короткими, а Chain-of-Draft сокращает рассуждения, формируя черновики для каждого шага;
На этапе обучения — корректируется фаза обучения модели — Demystifying вводит функцию вознаграждения со штрафом за превышение длины, а DAST и Kimi включают аналогичные ограничения, контролируя размер цепочек рассуждений;
На уровне промежуточных состояний — сжимаются данные, создаваемые во время инференса — Coconut рассматривает скрытые состояния последнего слоя как «непрерывную мысль», заменяя дискретные токены, а CODI применяет самодистилляцию, чтобы формировать внутренние рассуждения без явной генерации текста.
Семантическое кэширование — снижает затраты на инференс, извлекая готовые ответы из кэша по семантическому сходству запросов. Например, MeanCache вычисляет вектор эмбеддинга запроса, сравнивает его с эмбеддингами в кэше и, если находит совпадение по смыслу и контексту, возвращает сохранённый ответ. Если совпадений нет — запрос передаётся LLM, а новый результат сохраняется в кэше. Для обеспечения конфиденциальности MeanCache применяет федеративное обучение при тренировке компактной эмбеддинг-модели и использует Principal Component Analysis (PCA) для уменьшения размера векторных представлений.
Квантизация — снижает числовую точность весов модели и активаций, например, с 32-битных чисел до 8-битных или ниже, что уменьшает объем памяти, требования к пропускной способности и ускоряет вычисления на аппаратуре низкой точности. Квантизация делится на два типа:
Weight-only Quantization — ZeroQuant-V2 использует 8-битные веса с 16-битными активациями для сохранения производительности, GLM-130B демонстрирует успешную 4-битную квантизацию, SqueezeLLM использует k-means кластеризацию для квантизации;
Weight+Activation Quantization — RPTQ кластеризует и переупорядочивает размерности активаций, Outlier Suppression+ добавляет факторы смещения, OmniQuant обучается оптимальным диапазонам отсечения.
Раздельное развёртывание этапов Prefill и Decode — повышает эффективность инференса.
Prefill обрабатывает входной промпт, это этап compute-bound — модель одновременно анализирует весь текст и активно использует вычислительные ресурсы;
Decode генерирует токены последовательно, по одному за раз, опираясь на предыдущие, это фаза memory-bound — требует высокой пропускной способности памяти, так как каждый новый токен обращается к уже сгенерированным данным.
Из-за различий в нагрузке зрелые фреймворки инференса раздельно управляют этими этапами. Например, Mooncake и DeepSeek-R1 динамически распределяют ресурсы между prefill и decode в зависимости от текущей нагрузки, что повышает пропускную способность и оптимизирует использование вычислительных мощностей.
Спекулятивное декодирование — ускоряет инференс за счет параллельной обработки и делится на стратегии генерации и уточнения.
Спекулятивное декодирование ускоряет инференс за счёт параллельной обработки и делится на две стратегии — генерации и уточнения.
Стратегии генерации включают:
подходы с заранее заданными токенами заполнения,
методы на основе извлечения (REST),
N-граммные техники (ANPD)
Стратегии уточнения основаны на проверке и доработке предварительно сгенерированных ответов:
одношаговая верификация (Fast Inference);
древовидная верификация (SpecInfer, Sequoia) — строит дерево возможных завершений для параллельной проверки;
итеративное декодирование (Jacobi) — выполняет несколько циклов уточнения, постепенно улучшая результат.
Для оценки эффективности AI-системы провели попарное сравнение с участием аннотаторов. Они в случайном порядке получали пары ответов от AI-системы и традиционного поиска, чтобы выбрать лучший вариант, либо указать на равенство. Результаты оценивались по метрике Normalized Win Rate (NWR), учитывающей количество побед, поражений и ничьих AI-системы. Сравнение проводилось на трёх уровнях сложности:
Простые запросы — паритет с традиционным поиском;
Умеренно сложные — улучшение на 5%;
Сложные — улучшение на 13%.
AI-поиск протестировали в поисковике Baidu через A/B-тест на 1% трафика, сравнив с традиционной системой по метрикам вовлеченности. Результаты AI-поиска:
Снижение изменения запросов (CQR) на 1.45%
Рост просмотров страниц (PV) на 1.04%
Увеличение ежедневных активных пользователей (DAU) на 1.85%
Рост времени удержания (Dwell Time) на 0.52%
Кроме того, были рассмотрены два кейса сравнения AI-поиска и традиционного: простой и сложный запрос. При простом вопросе: «Какова высота горы Тай?», обе системы быстро дали верный ответ — 1545 метров. Однако при сложном запросе: «Кто старше — Хань Уди или Цезарь, и на сколько лет?», традиционный поиск не справился. AI-система, используя архитектуру с Task Planner, Executor и Writer, разбила задачу на шаги, нашла нужные данные, произвела вычисления и выдала полный ответ. Таким образом, AI-система значительно эффективнее при решении сложных задач, требующих логики и многошаговой обработки.
Над материалом работали
Текст — Валера Горланов
Редактура — Игорь Решетников
Иллюстрации — Петя Галицкий
Это блог red_mad_robot. Мы запускаем цифровые бизнесы и помогаем компаниям внедрять AI. Здесь наша команда разработки на собственных кейсах рассказывает о том, что происходит с AI сегодня, а стратегические аналитики подсказывают, что будет завтра. Мы бы подписались.
Наш Telegram-канал (там всё другое, а ещё есть анонсы мероприятий): t.me/redmadnews