Джон Леннон в 1967 сказал (словами песни) - «All You Need Is Love», и это стало революционным посланием миру. Вторую революцию с этими словами через 50 лет (только вместо Love - Attention) совершила статья группы авторов, в результате мы получили мир LLM-GPT: Attention is all you need. Но сейчас выходят сотни статей по темам AI и анализа/обработки данных, где в заголовке все то же ... All You Need. То есть статьи, претендующие на некую... хм, революционность и безапелляционность. Так ли это? Я исследую технологии, и решил провести эксперимент: отобрать с начала 2024 по март 2025 и перевести аннотации к статьям с "All You Need" в заголовке. Возможно, из этой кучи [зерна] лично вы сможете выудить для себя пару жемчужин?
И да - у меня НЕТ телеграмм-канала и не планируется! Если в списке статей вы найдете для себя жемчуг, золото или хотя бы медь, плюсуйте статью ромбиками и пишите в комментах, что ценного удалось найти!
Итак, представляю вам список названий статей, перевод названий и аннотаций с использованием в заглавии "All You Need" за 2024 - начало 2025 года:
NdLinear Is All You Need for Representation Learning
Alex Reneau, Jerry Yao-Chieh Hu, Zhongfang Zhuang, Ting-Chun Liu
21 марта 2025
Многие важные задачи машинного обучения включают многомерные данные (например, изображения, объемные медицинские сканы, многомерные временные ряды). Однако большинство нейронных архитектур "уплощают" входные данные, отбрасывая критически важную кросс-размерную информацию. Мы представляем NdLinear — новое линейное преобразование, сохраняющее эти структуры без дополнительных вычислительных затрат. Работая отдельно вдоль каждого измерения, NdLinear фиксирует зависимости, которые стандартные полносвязные слои упускают. Масштабные эксперименты со сверточными, рекуррентными и трансформерными сетями демонстрируют значительное улучшение выразительной мощности и эффективности использования параметров. Ключевое преимущество NdLinear — способность служить фундаментальным строительным блоком для крупномасштабных базовых моделей, работая с любыми унимодальными или мультимодальными данными в их естественной форме. Это устраняет необходимость в "уплощении" или модальностно-специфичной предобработке. NdLinear переосмысливает архитектурные приоритеты, выходящие за рамки механизма внимания, позволяя создавать более выразительные, контекстно-чувствительные модели. Мы предлагаем NdLinear как замену стандартным линейным слоям — важный шаг к нейронным архитектурам следующего поколения.
PDF
Revisiting End To End Sparse Autoencoder Training – A Short Finetune Is All You Need
Adam Karvonen
21 марта 2025
Разреженные автоэнкодеры (SAE) широко используются для интерпретации активаций языковых моделей. Ключевой метрикой оценки является увеличение кросс-энтропийных потерь при замене активаций модели на реконструкции SAE. Обычно SAE обучаются исключительно на среднеквадратичной ошибке (MSE) с использованием предварительно вычисленных, перемешанных активаций. Недавние работы предложили обучать SAE напрямую с комбинацией дивергенции KL и MSE ("сквозные" SAE), что значительно улучшило точность реконструкции ценой существенного роста вычислительных затрат, что ограничило их широкое применение. Мы предлагаем краткий этап дообучения KL+MSE, применяемый только к последним 25 миллионам обучающих токенов (всего несколько процентов от типичного бюджета обучения), который достигает сопоставимых улучшений, сокращая разрыв в потерях кросс-энтропии на 20-50% при минимальных дополнительных вычислительных затратах. Мы также обнаружили, что различные методы дообучения (KL-дообучение, адаптеры LoRA, линейные адаптеры) дают схожие, неаддитивные улучшения кросс-энтропии, что указывает на общий, легко исправляемый источник ошибок в SAE, обученных на MSE. Мы демонстрируем простой метод эффективного переноса гиперпараметров и штрафов за разреженность, несмотря на разницу в масштабах между потерями KL и MSE. Хотя как ReLU, так и TopK SAE показывают значительное улучшение потерь кросс-энтропии, оценка по контролируемым метрикам SAEBench дает неоднозначные результаты, что предполагает зависимость практической пользы от архитектуры SAE и конкретной прикладной задачи. Тем не менее, наш метод предлагает значимые улучшения для приложений интерпретируемости, таких как анализ схем, с минимальными дополнительными затратами.
PDF
Is Discretization Fusion All You Need for Collaborative Perception?
Kang Yang, Tianci Bu, Lantao Li, Chunxu Li, Yongcai Wang, Deying Li
18 марта 2025
Совместное восприятие в мультиагентных системах усиливает общие перцептивные возможности за счет обмена дополнительной информацией между агентами. Современные методы совместного восприятия полагаются на дискретизированные карты признаков для слияния данных, что, однако, ограничивает гибкость при извлечении и передаче информативных признаков и затрудняет фокусировку на них во время слияния. Для решения этих проблем мы предлагаем новую Anchor-Centric парадигму для совместной детекции объектов (ACCO). Она избегает проблем точности сетки и позволяет более гибкую и эффективную anchor-ориентированную коммуникацию и слияние. ACCO состоит из трех основных компонентов: (1) Блок anchor-признаков (AFB), который генерирует anchor-предложения и проецирует подготовленные anchor-запросы на признаки изображения. (2) Генератор anchor-уверенности (ACG), предназначенный для минимизации коммуникации путем выбора только признаков в confident anchors для передачи. (3) Локально-глобальный модуль слияния, где локальное слияние основано на выравнивании anchor (LAAF), а глобальное слияние выполняется через пространственно-чувствительное кросс-внимание (SACA). LAAF и SACA работают в многослойном режиме, позволяя агентам выполнять anchor-ориентированное слияние итеративно для корректировки anchor-предложений. Всесторонние эксперименты на наборах данных OPV2V и Dair-V2X демонстрируют превосходство ACCO в сокращении объема коммуникации, расширении диапазона восприятия и улучшении качества детекции.
PDF
All You Need to Know About Training Image Retrieval Models
Gabriele Berton, Kevin Musgrave, Carlo Masone
17 марта 2025
Поиск изображений — это задача нахождения в базе изображений, наиболее похожих на заданное в запросе изображение. Производительность конвейера поиска изображений зависит от множества факторов обучения, включая архитектуру модели внедрения, функцию потерь, сэмплер данных, функцию майнинга, скорость обучения и размер пакета. В этой работе мы выполняем десятки тысяч обучающих прогонов, чтобы понять влияние каждого из этих факторов на точность поиска. Мы также выявляем лучшие практики, применимые к различным наборам данных. Код доступен по адресу https://github.com/gmberton/image-retrieval
PDF
Concept-as-Tree: Synthetic Data is All You Need for VLM Personalization
Ruichuan An, Kai Zeng, Ming Lu, Sihan Yang, Renrui Zhang, Huitong Ji, Qizhe Zhang, Yulin Luo, Hao Liang, Wentao Zhang
23 марта 2025
Vision-Language Models (VLM) демонстрируют исключительную производительность в различных мультимодальных задачах. В последнее время растет интерес к улучшению возможностей персонализации VLM. Для лучшей интеграции пользовательских концепций в VLM многие методы используют позитивные и негативные примеры для тонкой настройки этих моделей. Однако нехватка пользовательских позитивных примеров и низкое качество извлеченных негативных примеров создают проблемы для тонкой настройки. Чтобы раскрыть взаимосвязь между примерами и производительностью модели, мы систематически исследуем влияние позитивных и негативных примеров (легких и сложных) и их разнообразия на задачи персонализации VLM. На основе детального анализа мы представляем Concept-as-Tree (CaT), который представляет концепцию в виде древовидной структуры, что позволяет генерировать данные для позитивных и негативных примеров различной сложности и разнообразия для персонализации VLM. С хорошо продуманной стратегией фильтрации данных наш фреймворк CaT может гарантировать качество генерируемых данных, формируя мощный конвейер. Мы проводим тщательные эксперименты с различными базовыми методами персонализации VLM, чтобы оценить эффективность конвейера, устраняя нехватку позитивных примеров и низкое качество негативных. Наши результаты демонстрируют, что CaT в сочетании с предложенным фильтром данных значительно улучшает возможности персонализации VLM на наборах данных MyVLM, Yo'LLaVA и MC-LLaVA. Насколько нам известно, эта работа является первым контролируемым конвейером синтетических данных для персонализации VLM. Код доступен по адресу https://github.com/zengkaiya/CaT.
PDF
CORDIC Is All You Need
Omkar Kokane, Adam Teman, Anushka Jha, Guru Prasath SL, Gopal Raut, Mukul Lokhande, S. V. Jaya Chand, Tanushree Dewangan, Santosh Kumar Vishvakarma
4 марта 2025
Искусственный интеллект требует адаптируемых аппаратных ускорителей для эффективного выполнения миллионов операций с высокой пропускной способностью. Мы представляем конвейерную архитектуру с блоком CORDIC для линейных MAC-вычислений и нелинейных итеративных функций активации (AF), таких как tanh, sigmoid и softmax. Этот подход фокусируется на реконфигурируемом обрабатывающем ядре (RPE) на основе systolic array, с уровнем прунинга 40%, улучшенной пропускной способностью до 4.64× и сокращением мощности и площади в 5.02× и 4.06× при 28 нм CMOS, с незначительной потерей точности. Реализация на FPGA демонстрирует сокращение ресурсов до 2.5× и мощности в 3× по сравнению с предыдущими работами. Systolic CORDIC engine для реконфигурируемости и улучшенной пропускной способности (SYCore) использует output stationary dataflow с механизмом управления CAESAR для разнообразных рабочих нагрузок ИИ, таких как трансформеры, RNN/LSTM и DNN, для приложений, включая детекцию изображений, LLM и распознавание речи. Энергоэффективный и гибкий подход расширяет возможности для edge AI ускорителей, поддерживающих новые рабочие нагрузки.
PDF
Collaboration is all you need: LLM Assisted Safe Code Translation
Rabimba Karanjai, Sam Blackshear, Lei Xu, Weidong Shi
14 марта 2025
В этой статье представлен UniTranslator, перспективный фреймворк, который переосмысливает перевод кода как совместную работу нескольких компактных LLM. Организуя взаимодействие специализированных агентов, каждый из которых фокусируется на разных аспектах процесса перевода и основан на глубоком понимании концепций программирования, UniTranslator достигает уровня точности и эффективности, сопоставимого с более крупными монолитными моделями. Наша предварительная оценка демонстрирует потенциал UniTranslator в преодолении ограничений существующих подходов и раскрытии возможностей небольших LLM для сложных задач перевода кода. Мы исследуем эффективность этой динамической мультиагентной парадигмы в обработке различных языковых пар, включая языки с ограниченными ресурсами, и в смягчении распространенных проблем, таких как артефакты кода и галлюцинации, через использование обоснования методом естественного логического вывода (NLI) и механизмов итеративной обратной связи.
PDF
Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question Evaluation
Qiji Zhou, Yifan Gong, Guangsheng Bao, Hongjie Qiu, Jinqiang Li, Xiangrong Zhu, Huajian Zhang, Yue Zhang
11 марта 2025
Контрфактуальные рассуждения имеют решающее значение для устойчивого понимания видео, но остаются малоизученными в существующих мультимодальных бенчмарках. В этой статье мы представляем COVER (Counterfactual Video Reasoning) — многомерный мультимодальный бенчмарк, который систематически оценивает MLLM по измерениям абстрактность-конкретность и восприятие-познание. В отличие от предыдущих мультимодальных бенчмарков, COVER декомпозирует сложные запросы в структурированные подвопросы, позволяя детальный анализ рассуждений. Эксперименты с коммерческими и открытыми моделями выявляют сильную корреляцию между точностью подвопросов и производительностью контрфактуальных рассуждений, подчеркивая роль структурированного вывода в понимании видео. Более того, наши результаты предполагают ключевую идею: улучшение способности моделей к рассуждениям необходимо для повышения устойчивости видео-понимания. COVER устанавливает новый стандарт оценки логических способностей MLLM в динамических средах.
PDF
VicaSplat: A Single Run is All You Need for 3D Gaussian Splatting and Camera Estimation from Unposed Video Frames
Zhiqi Li, Chengrui Dong, Yiming Chen, Zhangchi Huang, Peidong Liu
13 марта 2025
Мы представляем VicaSplat — новый фреймворк для совместной реконструкции 3D гауссов и оценки позиций камеры из последовательности неразмеченных видео кадров, что является критической, но малоизученной задачей в реальных 3D приложениях. Основой нашего метода является новая трансформерная архитектура сети. В частности, наша модель начинается с изображения-энкодера, который преобразует каждое изображение в список визуальных токенов. Все визуальные токены конкатенируются с дополнительными обучаемыми камерными токенами. Полученные токены полностью взаимодействуют друг с другом внутри специально разработанного трансформерного декодера. Камерные токены причинно агрегируют признаки из визуальных токенов разных ракурсов и дополнительно модулируют их покадрово, чтобы внедрить view-зависимые признаки. Параметры 3D гауссов и позиций камер затем могут быть оценены через различные предсказательные головы. Эксперименты показывают, что VicaSplat превосходит базовые методы для мультивью-входов и достигает сопоставимой производительности с предыдущими двухракурсными подходами. Примечательно, что VicaSplat также демонстрирует исключительную способность к кросс-датасетному обобщению на бенчмарке ScanNet, достигая превосходной производительности без какой-либо тонкой настройки.
PDF
Reinforcement Learning is all You Need
Yongsheng Lian
12 марта 2025
Вдохновленные успехом DeepSeek R1 в рассуждениях через обучение с подкреплением без обратной связи от человека, мы обучаем 3B языковую модель, используя игру "Обратный отсчет" с чистым обучением с подкреплением. Наша модель превосходит базовые линии на четырех из пяти бенчмарков, демонстрируя улучшенное обобщение за пределы тренировочных данных. Примечательно, что длина ответа не коррелирует с качеством рассуждений, и хотя "моменты озарения" возникают, они не всегда приводят к правильным ответам. Эти находки подчеркивают потенциал RL-обучения для улучшения рассуждений и предполагают будущую работу по уточнению структур вознаграждений для соединения возникающих инсайтов с точностью.
PDF
Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis
Letian Zhang, Quan Cui, Bingchen Zhao, Cheng Yang
13 марта 2025 (обновлено)
Успех мультимодальных больших языковых моделей (MLLM) во многом объясняется масштабными обучающими данными. Однако тренировочные данные многих MLLM недоступны из-за проблем конфиденциальности. Трудоемкий процесс сбора мультимодальных данных усугубляет проблему. Возможно ли автоматически синтезировать мультимодальные обучающие данные без ущерба для разнообразия и качества? В этой статье мы предлагаем новый метод Oasis для синтеза высококачественных мультимодальных данных, используя только изображения. Oasis преодолевает традиционные методы, подавая исключительно изображения в MLLM, значительно расширяя разнообразие данных. Наш метод включает тщательный контроль качества, гарантирующий качество данных. Мы собрали более 500K данных и провели инкрементальные эксперименты на LLaVA-NeXT. Результаты показывают, что наш метод может значительно улучшить производительность MLLM. Синтез на основе изображений также позволяет фокусироваться на специфических доменных возможностях MLLM. Код и данные будут публично доступны.
PDF
Image is All You Need: Towards Efficient and Effective Large Language Model-Based Recommender Systems
Kibum Kim, Sein Kim, Hongseok Kang, Jiwan Kim, Heewoong Noh, Yeonjun In, Kanghoon Yoon, Jinoh Oh, Chanyoung Park
8 марта 2025
Большие языковые модели (LLM) недавно стали мощной основой для рекомендательных систем. Существующие LLM-рекомендательные системы используют два подхода к представлению элементов на естественном языке: атрибут-ориентированное и описание-ориентированное. В этой работе мы исследуем компромисс между эффективностью и действенностью этих подходов, наблюдая значительное перекрытие информации между изображениями и текстовыми описаниями элементов. Мы предлагаем I-LLMRec — метод, использующий изображения как альтернативу объемным текстовым описаниям для представления элементов, сокращая использование токенов при сохранении семантической информации. Эксперименты показывают, что I-LLMRec превосходит существующие методы по эффективности и действенности благодаря использованию изображений. Кроме того, наш метод снижает чувствительность к шуму в описаниях, обеспечивая более устойчивые рекомендации.
PDF
Slim attention: cut your context memory in half without loss of accuracy – K-cache is all you need for MHA
Nils Graef, Andrew Wasielewski
6 марта 2025
Slim attention сокращает размер памяти контекста в 2× для трансформерных моделей с MHA (мульти-головым вниманием), что может ускорить вывод до 2× для больших контекстных окон. Slim attention — это точная, математически идентичная реализация стандартного механизма внимания, поэтому не жертвует точностью модели. Другими словами, slim attention без потерь сжимает память контекста в 2×. Для трансформеров типа "кодировщик-декодировщик" (например, Whisper) память сокращается в 8×, ускоряя генерацию токенов в 5× при размере пакета 64. В редких случаях, когда проекционная размерность MHA превышает размер эмбеддинга (например, T5-11B), память сокращается в 32×.
PDF
Memory Is All You Need: Testing How Model Memory Affects LLM Performance in Annotation Tasks
Joan C. Timoneda, Sebastián Vallejo Vera
6 марта 2025
Генеративные LLM показывают впечатляющие результаты в аннотировании текста с помощью few-shot обучения. Однако эти подходы не позволяют модели сохранять информацию из предыдущих аннотаций, делая каждый ответ независимым. Это поднимает вопрос: влияет ли память модели (знание своих предыдущих аннотаций) на производительность? Используя GPT-4o и Llama 3.1 на двух политологических датасетах, мы демонстрируем, что сохранение информации о предыдущих классификациях дает улучшение точности на 5–25% по сравнению с zero-shot и few-shot обучением. Кроме того, memory reinforcement (комбинация памяти и обучения с подкреплением) дает дополнительный прирост производительности. Эти результаты важны для прикладных исследователей, стремящихся улучшить эффективность LLM в задачах аннотирования.
PDF
The JARVIS Infrastructure Is All You Need for Materials Design
Kamal Choudhary
6 марта 2025
JARVIS (Joint Automated Repository for Various Integrated Simulations) — это комплексная инфраструктура, предлагающая базы данных, инструменты, руководства и бенчмарки для многомасштабного мультимодального прямого и обратного дизайна материалов. Акцент делается на открытый доступ и воспроизводимость. JARVIS объединяет теоретические и экспериментальные методы, включая DFT, квантовый Монте-Карло, методы машинного обучения (от fingerprinting до трансформеров), а также экспериментальные данные по криогенике, микроскопии и дифракции. Ресурсы распространяются через открытые датасеты, веб-приложения, скрипты и публикации. Широко используемый во всем мире, JARVIS уже обеспечил миллионы загрузок. Объединяя разнородные методы и данные на одной платформе, JARVIS способствует фундаментальным открытиям и инновациям, продвигая как традиционный, так и data-driven дизайн материалов.
PDF
Rethinking Deep Clustering Paradigms: Self-Supervision Is All You Need
Amal Shaheena, Nairouz Mrabahb, Riadh Ksantinia, Abdulla Alqaddoumia
5 марта 2025
Недавние достижения в глубокой кластеризации стали возможными благодаря прогрессу в самоконтролируемом и псевдо-контролируемом обучении. Однако совместное обучение вызывает Feature Randomness и Feature Drift, а независимое обучение — Feature Twist. Мы предлагаем R-DC — новую парадигму, заменяющую псевдо-контроль вторым этапом самоконтроля, что делает переход между уровнями самоконтроля более плавным. Это предотвращает "дрейф" признаков, вызванный конкуренцией между instance-level самоконтролем и clustering-level псевдо-контролем, и исключает риск генерации случайных признаков. Эксперименты на шести датасетах показывают, что двухуровневое обучение самоконтролем дает существенные улучшения.
PDF
Privacy is All You Need: Revolutionizing Wearable Health Data with Advanced PETs
Karthik Barma, Seshu Babu Barma
5 марта 2025
В мире, где данные стали новой валютой, носимые устройства предлагают беспрецедентные возможности мониторинга здоровья. Однако это поднимает вопросы конфиденциальности, так как устройства собирают чувствительные данные, которые могут быть использованы неправомерно. Мы предлагаем фреймворк Privacy-Enhancing Technology (PET) для носимых устройств, интегрирующий федеративное обучение, легкие криптографические методы и избирательное использование блокчейна. Блокчейн служит защищенным логом, активируемым только при запросах передачи данных, предоставляя пользователям контроль в реальном времени. Наш подход снижает риски конфиденциальности до 70%, сохраняя полезность данных. Приложения включают безопасный обмен медицинскими данными, фитнес-трекинг и непрерывный мониторинг здоровья. Эта инновация устанавливает новый стандарт конфиденциальности для носимых устройств и может масштабироваться на другие IoT-экосистемы.
PDF
Video Super-Resolution: All You Need is a Video Diffusion Model
Zhihao Zhan, Wang Pang, Xiang Zhu, Yechao Bai
5 марта 2025 (обновлено)
Мы представляем универсальный алгоритм видео супер-разрешения на основе Diffusion Posterior Sampling с безусловной моделью генерации видео в латентном пространстве. Модель генерации (диффузионный трансформер) функционирует как пространственно-временная модель. Мы утверждаем, что мощная модель, изучающая физику реального мира, может легко обрабатывать различные паттерны движения как априорные знания, устраняя необходимость явного оценивания оптических потоков или параметров движения для выравнивания пикселей. Более того, единичный экземпляр модели видео диффузионного трансформера может адаптироваться к разным условиям сэмплирования без переобучения. Эмпирические результаты на синтетических и реальных датасетах показывают, что наш метод эффективно решает задачи видео супер-разрешения.
PDF
SoK: Knowledge is All You Need: Last Mile Delivery for Automated Provenance-based Intrusion Detection with LLMs
Wenrui Cheng, Tiantian Zhu, Chunlin Xiong, Haofei Sun, Zijun Wang, Shunan Jing, Mingqi Lv, Yan Chen
4 марта 2025
Системы обнаружения вторжений на основе происхождения (PIDS) широко применяются для анализа угроз на конечных устройствах. Однако отсутствие систематической интеграции знаний ограничивает их автоматизацию. Мы представляем OmniSec — систему, использующую LLM для объединения знаний о представлении атак, threat intelligence и поведении benign-систем. OmniSec превосходит state-of-the-art методы на публичных бенчмарках, демонстрируя до 35.8% улучшение micro F1-score по сравнению с лучшими PIDS на QALD-9. Ключевое преимущество — устранение "проблемы изолированности знаний" через трехуровневую интеграцию знаний.
PDF
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models
Ke Ji, Jiahao Xu, Tian Liang, Qiuzhi Liu, Zhiwei He, Xingyu Chen, Xiaoyuan Liu, Zhijie Wang, Junying Chen, Benyou Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
4 марта 2025
Мы представляем Unsupervised Prefix Fine-Tuning (UPFT), метод, использующий явление Prefix Self-Consistency — общность начальных шагов рассуждения в различных траекториях решения. Обучая модель только на начальных подстроках (всего 8 токенов), UPFT устраняет необходимость в размеченных данных или ресурсоемком сэмплинге. Эксперименты показывают, что UPFT сопоставим с supervised методами (например, Rejection Sampling Fine-Tuning), сокращая время обучения на 75% и затраты на сэмплинг на 99%. Анализ ошибок подтверждает, что они возникают на поздних этапах рассуждения, а префиксное обучение сохраняет структурные знания модели.
PDF
BEYONDWORDS is All You Need: Agentic Generative AI based Social Media Themes Extractor
Mohammed-Khalil Ghali, Abdelrahman Farrag, Sarah Lam, Daehan Won
26 февраля 2025
Тематический анализ постов в соцсетях дает важное понимание публичного дискурса, но традиционные методы плохо справляются с неструктурированными текстовыми данными. Мы предлагаем методологию, сочетающую эмбеддинги твитов из предобученных языковых моделей, уменьшение размерности и генеративный ИИ для выявления латентных тем. Наш подход кластеризует сжатые представления твитов и использует генеративный ИИ с цепочкой рассуждений (CoT) для извлечения тем, с дополнительной LLM для контроля качества. Применяя метод к сообществу аутистов, мы демонстрируем автоматизированное извлечение ключевых инсайтов с сохранением богатства оригинального дискурса.
PDF
All You Need for Counterfactual Explainability Is Principled and Reliable Estimate of Aleatoric and Epistemic Uncertainty
Kacper Sokol, Eyke Hüllermeier
24 февраля 2025
Аннотация: В этой позиционной статье мы утверждаем, что исследования интерпретируемости ИИ часто игнорируют фундаментальные концепции, такие как количественная оценка неопределенности. Мы показываем, как интеграция оценки неопределенности может решить ключевые проблемы интерпретируемости, особенно для ante-hoc интерпретируемости и контрфактуальных объяснений. Наш анализ демонстрирует, что неопределенность и интерпретируемость — это взаимодополняющие аспекты одной идеи: надежные оценки эпистемической и алеаторной неопределенности обеспечивают основу для контрфактуальных объяснений. Это позволяет inherently интерпретируемым моделям получать человеко-ориентированные инсайты (например, контрфакты), которые иначе были бы недоступны.
PDF
Sparsity May Be All You Need: Sparse Random Parameter Adaptation
Jesus Rios, Pierre Dognin, Ronny Luss, Karthikeyan N. Ramamurthy
21 февраля 2025
Полная тонкая настройка больших языковых моделей для согласования становится непрактично дорогой по мере роста моделей. Parameter-Efficient Fine-Tuning (PEFT) методы значительно сокращают вычислительные ресурсы, обучая лишь небольшое подмножество параметров вместо всей модели. В отличие от популярного Low-Rank Adaptation (LoRA), мы предлагаем сокращать число обучаемых параметров путем случайного выбора их подмножества. В экспериментах мы сравниваем эффективность и производительность нашего подхода с PEFT методами, включая LoRA, и полной тонкой настройкой.
PDF
Small Graph Is All You Need: DeepStateGNN for Scalable Traffic Forecasting
Yannick Wölker, Arash Hajisafi, Cyrus Shahabi, Matthias Renz
20 февраля 2025
Мы представляем DeepStateGNN — новую архитектуру графовой нейросети (GNN) для анализа данных трафика, демонстрирующую эффективность в двух ключевых задачах: прогнозировании и реконструкции. В отличие от традиционных GNN методов, где каждый датчик трафика является отдельным узлом графа, DeepStateGNN кластеризует датчики в узлы более высокого уровня (Deep State Nodes) на основе пространственной близости, функционального сходства и поведения при специфических условиях. Это позволяет динамически адаптировать кластеры во времени. Наши эксперименты показывают, что DeepStateGNN обеспечивает превосходную масштабируемость и ускоренное обучение, одновременно достигая более точных результатов по сравнению с аналогами. Метод эффективно обрабатывает крупномасштабные сети датчиков, превосходя другие методы в точности прогнозирования и реконструкции трафика.
PDF
Image compositing is all you need for data augmentation
Ang Jia Ning Shermaine, Michalis Lazarou, Tania Stathaki
19 февраля 2025
В этой статье исследуется влияние различных методов аугментации данных на производительность моделей детекции объектов. Мы сравниваем классические методы аугментации, композитинг изображений и передовые генеративные модели (Stable Diffusion XL, ControlNet). Используя YOLOv8, мы проводим тонкую настройку на пользовательском датасете коммерческих и военных самолетов. Результаты показывают, что композитинг изображений обеспечивает наибольшее улучшение точности детекции (по метрикам precision, recall, [email protected]). Генеративные модели также демонстрируют значительный прогресс, подчеркивая потенциал advanced аугментации для задач детекции объектов.
PDF
OCT Data is All You Need: How Vision Transformers with and without Pre-training Benefit Imaging
Zihao Han, Philippe De Wilde
17 февраля 2025
Оптическая когерентная томография (OCT) обеспечивает высокодетализированные изображения поперечных сечений, полезные для диагностики заболеваний. Однако их отличительные характеристики от натуральных изображений ставят вопрос: всегда ли крупномасштабное предобучение на ImageNet полезно? Мы исследуем влияние предобучения ImageNet на производительность Vision Transformer (ViT) для классификации изображений OCT при разных размерах датасета. Эксперименты с четырьмя категориями патологий сетчатки (CNV, DME, Drusen, Normal) показывают, что предобучение может ускорять сходимость, но обучение с нуля достигает сопоставимой или лучшей точности при достаточном объеме OCT-данных.
PDF
Is Depth All You Need? An Exploration of Iterative Reasoning in LLMs
Zongqian Wu, Tianyu Li, Baoduo Xu, Jiaying Yang, Mengmeng Zhan, Xiaofeng Zhu, Lei Feng
18 февраля 2025
Глубокие итеративные рассуждения с цепочкой мыслей (CoT) позволяют большим языковым моделям (LLM) решать сложные задачи, постепенно активируя предварительно обученные знания. Однако они сталкиваются с проблемами обеспечения постоянного улучшения и определения критерия остановки. В этой статье мы исследуем, можно ли активировать знания, непосредственно связанные с решением задачи, из начального пути рассуждений, избегая необходимости итеративного уточнения. Наши эксперименты показывают, что увеличение разнообразия начальных путей рассуждений может достичь сопоставимого или даже лучшего результата — концепция, которую мы называем «широтой рассуждений». Однако существующие подходы, такие как самосогласованность, предлагают ограниченное разнообразие. Для решения этой проблемы мы предлагаем простой, но эффективный метод, который расширяет широту рассуждений, сочетая контекстное исследование с уменьшенной случайностью выборки. Эксперименты подтверждают, что наш подход значительно превосходит глубокие итеративные рассуждения.
PDF
Distraction is All You Need for Multimodal Large Language Model Jailbreaking
Zuopeng Yang, Jiluan Fan, Anli Yan, Erdun Gao, Xin Lin, Tao Li, Kanghua mo, Changyu Dong
15 февраля 2025
Мультимодальные большие языковые модели (MLLM) объединяют визуальные и текстовые данные, обеспечивая широкий спектр приложений. Однако сложные внутренние взаимодействия между визуальными элементами и их выравнивание с текстом могут создавать уязвимости, позволяющие обходить механизмы безопасности. Мы анализируем взаимосвязь между содержимым изображения и задачей и обнаруживаем, что ключевым фактором является сложность подизображений, а не их содержание. На основе этого мы предлагаем гипотезу отвлечения и новый метод Contrasting Subimage Distraction Jailbreaking (CS-DJ), который нарушает выравнивание MLLM через многоуровневые стратегии отвлечения. Наши эксперименты показывают, что CS-DJ достигает успеха в 52,40% атак и 74,10% в ансамблевом режиме, демонстрируя потенциал подходов, основанных на отвлечении.
PDF
Communication is All You Need: Persuasion Dataset Construction via Multi-LLM Communication
Weicheng Ma, Hefan Zhang, Ivory Yang, Shiyu Ji, Joice Chen, Farnoosh Hashemi, Shubham Mohole, Ethan Gearey, Michael Macy, Saeed Hassanpour, Soroush Vosoughi
12 февраля 2025
Большие языковые модели (LLM) демонстрируют способность генерировать убедительные диалоги, но сохраняются опасения относительно их беглости и сложности. В этой статье представлена структура взаимодействия нескольких LLM, предназначенная для автоматического создания убедительных данных. Этот подход позволяет эффективно генерировать высококачественный и разнообразный лингвистический контент с минимальным участием человека. Оценки показывают, что созданные данные превосходят аналоги в естественности, лингвистическом разнообразии и стратегическом использовании убеждения, даже в сложных сценариях, связанных с социальными табу. Структура также демонстрирует способность обобщать новые контексты, открывая возможности для исследований в области вычислительных и социальных наук.
PDF
Intention is All You Need: Refining Your Code from Your Intention
Qi Guo, Xiaofei Xie, Shangqing Liu, Ming Hu, Xiaohong Li, Lei Bu
12 февраля 2025
Уточнение кода направлено на улучшение существующего кода за счёт исправления проблем, рефакторинга и оптимизации. Однако традиционный обмен между рецензентами и разработчиками становится всё более обременительным. Мы предлагаем метод уточнения кода на основе намерений, который улучшает процесс «комментарий-код», явно извлекая намерения рецензентов из комментариев. Наш подход включает две ключевые фазы: извлечение намерений и генерацию исправлений. Эксперименты с пятью LLM (GPT4o, GPT3.5 и др.) показывают, что наш метод достигает 79% точности в извлечении намерений и до 66% в генерации исправлений, улучшая качество данных и эффективность процесса.
PDF
TransMLA: Multi-Head Latent Attention Is All You Need
Fanxu Meng, Zengwei Yao, Muhan Zhang
13 февраля 2025
Современные большие языковые модели (LLM) часто сталкиваются с коммуникационными узкими местами, а не с вычислительными ограничениями. Многоголовое латентное внимание (MLA) решает эту проблему, используя низкоранговые матрицы в слоях ключ-значение, что позволяет кэшировать сжатые латентные состояния. Это значительно уменьшает размер кэша по сравнению с традиционным вниманием, ускоряя вывод. Мы представляем TransMLA — метод пост-обучения, преобразующий предварительно обученные модели на основе GQA (например, LLaMA, Qwen) в модели на основе MLA. После преобразования модель может проходить дополнительное обучение для повышения выразительности без увеличения размера кэша.
PDF
PIM Is All You Need: A CXL-Enabled GPU-Free System for Large Language Model Inference
Yufeng Gu, Alireza Khadem, Sumanth Umesh, Ning Liang, Xavier Servot, Onur Mutlu, Ravi Iyer, Reetuparna Das
21 марта 2025
Вывод LLM использует авторегрессивный способ генерации токенов, что требует высокой пропускной способности памяти. Мы предлагаем CENT — систему для вывода LLM, использующую возможности расширения памяти CXL и блоки обработки рядом с банками памяти, устраняя необходимость в дорогих GPU. CENT обеспечивает в 2,3 раза более высокую пропускную способность и потребляет в 2,3 раза меньше энергии по сравнению с GPU.
PDF
Is attention all you need to solve the correlated electron problem?
Max Geier, Khachatur Nazaryan, Timothy Zaklama, Liang Fu
9 марта 2025
Механизм внимания преобразовал исследования искусственного интеллекта, позволяя изучать отношения между объектами. В этой работе мы исследуем, как ансамбль волновых функций, построенный на основе само-внимательной нейронной сети, может решить проблему взаимодействующих электронов в твёрдых телах. Наше исследование показывает, что такой подход обеспечивает точное, эффективное и несмещённое решение, открывая путь к масштабным симуляциям.
PDF
NER4all or Context is All You Need: Using LLMs for low-effort, high-performance NER on historical texts
Torsten Hiltmann, Martin Dröge, Nicole Dresselhaus, Till Grallert, Melanie Althage, Paul Bayer, Sophie Eckenstaler, Koray Mendi, Jascha Marijn Schmitz, Philipp Schneider, Wiebke Sczeponik, Anica Skibba
4 февраля 2025
Распознавание именованных сущностей (NER) — ключевая задача для исторических исследований, но традиционные методы страдают от ограничений. Мы демонстрируем, что современные LLM значительно превосходят NLP-фреймворки (spaCy, flair) в NER для исторических документов, улучшая F1-метрики на 7–22%. Наш подход демократизирует доступ к NER, устраняя барьеры в виде навыков программирования.
PDF
3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation
Yihua Cheng, Hengfei Wang, Zhongqun Zhang, Yang Yue, Bo Eun Kim, Feng Lu, Hyung Jin Chang
24 марта 2025
3D и 2D оценка взгляда традиционно рассматриваются как отдельные области. Мы предлагаем метод, который адаптирует предварительно обученную 3D-модель для 2D-предсказаний на новых устройствах с использованием всего нескольких изображений. Наш подход включает дифференцируемый модуль проекции и динамическую псевдо-разметку, обеспечивая высокую точность даже на мобильных устройствах.
PDF
Markov Renewal Proportional Hazards is All You Need
Eliuvish Cuicizion
23 марта 2025
Оценка вероятностей перехода играет критическую роль в моделировании многомерных состояний, особенно в клинических исследованиях. Мы применяем полумарковские и марковские обновляемые структуры к набору данных EBMT, фокусируясь на шести клинических состояниях при трансплантации стволовых клеток. Сравнение оценок Aalen-Johansen и Dabrowska-Sun-Horowitz показывает, что полумарковские модели, учитывающие время пребывания, обеспечивают более детальное описание траекторий пациентов.
PDF
Reformulation is All You Need: Addressing Malicious Text Features in DNNs
Yi Jiang, Oubo Ma, Yong Yang, Tong Zhang, Shouling Ji
1 февраля 2025
Человеческий язык охватывает сложные неявные признаки, которые злоумышленники могут использовать для атак. Мы предлагаем унифицированную и адаптивную структуру защиты, эффективную против атак и бэкдоров. Наш подход использует модули реформализации для устранения вредоносных признаков при сохранении семантической целостности. Эксперименты подтверждают превосходство нашей структуры над существующими методами.
PDF
Detection Is All You Need: A Feasible Optimal Prior-Free Black-Box Approach For Piecewise Stationary Bandits
Argyrios Gerogiannis, Yu-Han Huang, Subhonmesh Bose, Venugopal V. Veeravalli
31 января 2025
Мы изучаем проблему кусочно-стационарных бандитов без априорных знаний о нестационарности. Предлагаем Detection Augmented Bandit (DAB) — модульный алгоритм, сочетающий любой стационарный метод с детектором изменений. DAB достигает оптимального состояния при минимальных предположениях. Применяя DAB к различным параметрическим настройкам, мы воспроизводим современные результаты. Интересно, что DAB также эффективен в дрейфующих средах, превосходя специализированные методы.
PDF
Anatomy Might Be All You Need: Forecasting What to Do During Surgery
Gary Sarwin, Alessandro Carretta, Victor Staartjes, Matteo Zoli, Diego Mazzatenta, Luca Regli, Carlo Serra, Ender Konukoglu
31 января 2025
Хирургическое руководство часто доставляется через нейронавигационные системы, но анализ видео в реальном времени остаётся сложной задачей. Мы предлагаем модель, прогнозирующую траекторию инструментов, используя не только их исторические позиции, но и анатомические особенности. Обучение на видео гипофизарных операций показывает, что анатомические признаки — ценный актив для этой задачи.
PDF
Is Conversational XAI All You Need? Human-AI Decision Making With a Conversational XAI Assistant
Gaole He, Nilay Aishwarya, Ujwal Gadiraju
29 января 2025
Объяснимый ИИ (XAI) помогает интерпретировать предсказания, но современные интерфейсы часто вызывают чрезмерное доверие. Мы сравниваем диалоговый XAI с дашбордами: первый улучшает понимание системы и доверие, но усиливает иллюзию глубины объяснений. Усиленные LLM-агенты усугубляют проблему. Результаты подчёркивают необходимость проектирования интерфейсов, балансирующих объяснения и критическое мышление.
PDF
Is Long Context All You Need? Leveraging LLM's Extended Context for NL2SQL
Yeounoh Chung, Gaurav T. Kakkar, Yu Gan, Brenton Milne, Fatma Ozcan
20 марта 2025
Большие языковые модели (LLM) демонстрируют впечатляющие возможности, но их применение для NL2SQL ограничено неоднозначностью вопросов. Мы исследуем влияние расширенного контекстного окна в Gemini-1.5-Pro, включая примеры значений столбцов, пары вопрос-SQL и документацию. Наш конвейер достигает высокой точности без тонкой настройки и дорогостоящих методов самосогласованности.
PDF
Attention is All You Need Until You Need Retention
M. Murat Yaslioglu
15 января 2025
Трансформеры не имеют встроенного механизма удержания, в отличие от человеческого познания. Мы предлагаем Retention Layer — модуль постоянной памяти для динамического воспроизведения шаблонов. Это позволяет моделям хранить и повторно использовать информацию между сессиями, эмулируя социальное обучение. Применения: персональные ассистенты, обнаружение мошенничества, робототехника.
PDF
Common Sense Is All You Need
Hugo Latapie
11 января 2025
Современный ИИ страдает от недостатка здравого смысла — базового аспекта познания у всех животных. Мы утверждаем, что интеграция здравого смысла через контекстное обучение и воплощение (даже в абстрактных областях) необходима для истинной автономности. Без этого ИИ останется асимптотически близким к идеалам вроде AIXI, но недостижимым на практике.
PDF
Tensor Product Attention Is All You Need
Yifan Zhang, Yifeng Liu, Huizhuo Yuan, Zhen Qin, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao
7 февраля 2025
Для обработки длинных последовательностей LLM требуют больших кэшей ключ-значение. Мы предлагаем Tensor Product Attention (TPA), использующий тензорные разложения для компактного представления запросов, ключей и значений. Наша архитектура T6 сокращает размер кэша в 4-7 раз, сохраняя качество. Код доступен на GitHub.
PDF
Element-wise Attention Is All You Need
Guoxin Feng
10 января 2025
Само-внимание (SA) страдает от высокой сложности. Мы предлагаем механизм поэлементного внимания, использующий евклидово расстояние вместо скалярного произведения и аппроксимирующий exp(q·k) полиномом Тейлора. Это снижает сложность обучения до O(tLD) и вывода до O(tD), обходя ограничения линейного внимания и RNN.
PDF
Google is all you need: Semi-Supervised Transfer Learning Strategy For Light Multimodal Multi-Task Classification Model
Haixu Liu, Penghao Jiang, Zerui Tao
2 января 2025
Рост объёмов изображений усиливает важность классификации. Мы предлагаем мультимодальный классификатор, объединяющий CNN для изображений и NLP для текстовых описаний. Наши эксперименты показывают, что интеграция текстовых данных улучшает точность предсказания меток. Модель сохраняет эффективность при компактном размере.
PDF
Kolmogorov GAM Networks are all you need!
Sarah Polson, Vadim Sokolov
31 декабря 2024
Kolmogorov GAM (K-GAM) сети — эффективная архитектура для обучения и вывода. Они представляют собой аддитивную модель с независимым от функции встраиванием, альтернативу трансформерам. Основанные на теореме Колмогорова о суперпозиции, они требуют меньше параметров, чем современные методы глубокого обучения. Мы применяем K-GAM к задаче Iris, демонстрируя потенциал для интерпретируемого машинного обучения.
PDF
Is Segment Anything Model 2 All You Need for Surgery Video Segmentation? A Systematic Evaluation
Cheng Yuan, Jian Jiang, Kunyi Yang, Lv Wu, Rui Wang, Zi Meng, Haonan Ping, Ziyu Xu, Yifan Zhou, Wanli Song, Hesheng Wang, Qi Dou, Yutong Ban
31 декабря 2024
Сегментация хирургических видео — ключевая задача для ИИ в медицине. Мы оцениваем zero-shot возможности SAM2 на 9 наборах данных с 17 типами операций. Несмотря на отсутствие специализированного обучения, SAM2 показывает конкурентоспособные результаты, но требует доработки для клинического применения.
PDF
Attention Is All You Need For Mixture-of-Depths Routing
Advait Gadhikar, Souptik Kumar Majumdar, Niclas Popp, Piyapat Saranrittichai, Martin Rapp, Lukas Schott
30 декабря 2024
Современные модели увеличивают параметры, но сталкиваются с вычислительными ограничениями. Мы представляем A-MoD — механизм маршрутизации на основе внимания, который использует карты внимания предыдущего слоя для динамического выбора токенов. Этот подход сокращает время обучения в 2 раза и улучшает точность на ImageNet на 2% по сравнению с традиционными методами. Ключевое преимущество — отсутствие дополнительных обучаемых параметров.
PDF
Generalize Your Face Forgery Detectors: An Insertable Adaptation Module Is All You Need
Xiaotian Si, Linghui Li, Liwei Zhang, Ziduo Guo, Kaiguo Yuan, Bingyu Li, Xiaoyong Li
30 декабря 2024
Обнаружение подделок лиц ограничено обобщением на неизвестные артефакты. Мы предлагаем простой framework, где:
Модуль Attention Refinement выравнивает карты внимания между атакованными и чистыми образцами
Model Constraint сохраняет производительность на легитимных данных Метод улучшает точность на 20% быстрее аналогов и совместим с большинством детекторов. Код доступен.
From Worms to Mice: Homeostasis Maybe All You Need
Jesus Marco de Lucas
28 декабря 2024
В этой работе мы выдвигаем гипотезу, что простой XOR-мотив в нейросетях (4 возбуждающих : 1 тормозящий нейрон) может объяснить пластичность нервных систем. Анализ коннектомов C. elegans (десятки связей) и зрительной коры мыши (миллионы) показывает универсальность паттерна. Если гипотеза подтвердится, это откроет новые пути в нейроморфных вычислениях.
PDF
Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks
Brian J Chan, Chao-Ting Chen, Jui-Hung Cheng, Hen-Hsen Huang
23 февраля 2025
RAG-системы страдают от задержек поиска и ошибок в релевантных документах. Мы демонстрируем, что LLM с расширенным контекстом (Gemini 1.5) может хранить все необходимые ресурсы в кэше, избегая поиска. Наша CAG-методика:
Предзагружает 100+ документов в контекст
Использует аномальные детекторы для фильтрации Превышает RAG по точности на 15% при 5-кратном сокращении задержки.
No More Adam: Learning Rate Scaling at Initialization is All You Need
Minghao Xu, Lichuan Xiang, Xu Cai, Hongkai Wen
17 декабря 2024
Мы представляем SGD-SaI — оптимизатор для LLM, который масштабирует LR по SNR градиентов (g-SNR), сокращает память на 50% vs AdamW, обучает ViT и GPT-2 в 20 раз быстрее На ImageNet-1K достигает +1.31% точности vs SOTA. Для Llama2-7B экономит 25GB памяти.
Lexicalization Is All You Need: Examining the Impact of Lexical Knowledge in a Compositional QALD System
David Maria Schmidt, Mohammad Fazleh Elahi, Philipp Cimiano
5 декабря 2024
Вопросно-ответные системы над связанными данными (QALD) требуют преодоления лексического разрыва. Наш метод создаёт явные лексические соответствия (например, "лечить" → dbo:Treatment), использует композиционную интерпретацию вопросов Превышает SOTA на 35.8 F1 в QALD-9. LLM плохо используют лексические знания — их точность растёт лишь на 2-3%.
Redundancy Is All You Need
Joshua Brakensiek, Venkatesan Guruswami
5 ноября 2024
Теоретическая работа, показывающая, что CSP-предикаты могут быть разрежены до размера их "неизбыточности". Используем метод энтропии из доказательства гипотезы объединённых множеств. Пример: предикат с неизбыточностью Ω(n^1.5) требует O(n^1.6) весов — первый нецелый показатель в литературе.
PDF
Attention is All You Need to Optimize Wind Farm Operations and Maintenance
Iman Kazemian, Murat Yildirim, Paritosh Ramanan
31 октября 2024
MHA-модель для планирования обслуживания турбин встраивает MIP-модели в архитектуру внимания, что сокращает время решения с часов до секунд. Обеспечивает выполнение 100% ограничений. Тесты на реальных данных: +12% эффективности vs традиционных методов.
LSEAttention is All You Need for Time Series Forecasting
Dizhen Liang
30 января 2025
LATST — трансформер для многомерных рядов, решающий:
Коллапс энтропии
Нестабильность обучения
Превышает линейные модели на 7 из 10 датасетов при меньшем числе параметров. Поддержка: долгосрочное прогнозирование, пропуски данных.
Cross-Entropy Is All You Need To Invert the Data Generating Process
Patrik Reizinger, Alice Bizeul, Attila Juhos, Julia E. Vogt, Randall Balestriero, Wieland Brendel, David Klindt
25 февраля 2025
Доказано: обучение с учителем восстанавливает латентные факторы вариации с точностью до линейного преобразования. Эксперименты на DisLib и ImageNet подтверждают — LLM кодируют прокси-факторы в линейных представлениях. Объясняет феномен "суперпозиции" в нейросетях.
PDF
Text-Guided Attention Is All You Need for Zero-Shot Robustness in Vision-Language Models
Lu Yu, Haiyang Zhang, Changsheng Xu
29 октября 2024
CLIP уязвим к адверсарным атакам. Наш метод TGA-ZSR:
Attention Refinement: выравнивает карты внимания атакованных/чистых образцов
Model Constraint: сохраняет точность на легитимных данных Улучшает robust-точность на 9.58% на 16 датасетах. Код доступен. PDF
Intention Is All You Need
Advait Sarkar
24 октября 2024
Философский анализ генеративного ИИ: "Механизированная конвергенция" — ИИ гомогенизирует намерения. Формирование намерения требует материальности/сопротивления. Предлагаем "экзистенциальные практики программирования" для сохранения человеческого агентства.
Gibberish is All You Need for Membership Inference Detection in Contrastive Language-Audio Pretraining
Ruoxi Cheng, Yizhong Ding, Shuirong Cao, Shitong Shao, Zhiqiang Wang
2 ноября 2024
Аудио может раскрывать PII. Наш метод USMID:
Генерирует бессмысленные тексты как негативные образцы
Обучает детектор аномалий на их эмбеддингах
Определяет членство по отклонению тестовых текстов Точность: 82% vs 67% у аналогов. Работает только с текстом, без доступа к аудио.
Attention Is All You Need for LLM-based Code Vulnerability Localization
Yue Li, Xiao Li, Hao Wu, Yue Zhang, Xiuzhen Cheng, Sheng Zhong, Fengyuan Xu
20 октября 2024
LOVA анализирует веса внимания в LLM: уязвимые строки привлекают больше внимания. Динамически отслеживает изменения весов. Результаты: +5.3x F1 vs SOTA, обнаружение в C/Python/Java/Solidity, 14.6x улучшение для смарт-контрактов
Efficient Deep Learning Board: Training Feedback Is Not All You Need
Lina Gong, Qi Gao, Peng Li, Mingqiang Wei, Fei Wu
17 октября 2024
Фреймворк EfficientDL:
Attention Refinement: статическое предсказание производительности
αβ-BO search: рекомендует компоненты без запуска моделей
Результаты:
20x быстрее AutoML
+1.31% точность на CIFAR-10
Совместимость с ResNet50, Swin-B, DaViT-T
Good Parenting is all you need -- Multi-agentic LLM Hallucination Mitigation
Ted Kwartler, Matthew Berman, Alan Aqrawi
25 октября 2024
Эксперимент с 4,900 запусками:
Первичный агент генерирует блог о вымышленном художнике Flipfloppidy
Рецензирующий агент (Llama3-70b/GPT-4) исправляет фактические ошибки
Результат: 85-100% успешных исправлений. Доказательство: мультиагентные системы могут контролировать галлюцинации.
Scattering is all you need: Simulation-based inference with scattering representations
Kiyam Lin, Benjamin Joachimi, Jason D. McEwen
2 декабря 2024
Метод для SBI:
Развёртки создают инвариантные представления
Не требуют дополнительных симуляций
Устойчивы к ковариатным сдвигам
Превышает second-order статистику по информативности. Код доступен.
Reddit is all you need: Authorship profiling for Romanian
Ecaterina Ştefănescu, Alexandru-Iulius Jerpelea
18 марта 2025
Первый корпус для румынского языка:
23k+ постов из 100+ сабреддитов
Разметка: возраст, занятость, интересы Fine-tuning LLM показывает F1=0.72.
Ресурсы публичны.
Dying Clusters Is All You Need -- Deep Clustering With an Unknown Number of Clusters
Collin Leiber, Niklas Strauß, Matthias Schubert, Thomas Seidl
12 октября 2024
UNSEEN — framework для:
Оценки числа кластеров (от верхней границы)
Совместимости с DCN, DEC, DKM
На 15 датасетах сокращает ошибку оценки на 40% vs аналогов.
Код на GitHub.
Looped ReLU MLPs May Be All You Need as Practical Programmable Computers
Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, Yufa Zhou
20 февраля 2025
Предыдущие работы показали, что механизмы внимания являются тьюринг-полными. Совсем недавно было продемонстрировано, что зацикленный 9-слойный трансформер может функционировать как универсальный программируемый компьютер. В то же время, многослойные перцептроны с активацией ReLU (ReLU-MLP), являющиеся одним из фундаментальных компонентов нейронных сетей, обладают высокой выразительной способностью; в частности, двухслойная нейронная сеть является универсальным аппроксиматором при экспоненциально большом количестве скрытых нейронов. Однако остается неясным, можно ли создать на основе ReLU-MLP универсальный программируемый компьютер с практическим количеством параметров. В данной работе мы даем утвердительный ответ, показывая, что зацикленный 23-слойный ReLU-MLP способен выполнять базовые необходимые операции, функционируя как программируемый компьютер более эффективно, чем зацикленный трансформер. Это свидетельствует о том, что простые модули обладают более мощной выразительной способностью, чем предполагалось ранее, и еще не до конца изучены. Наша работа углубляет понимание механизмов нейронных сетей и демонстрирует, что сложные задачи, такие как функционирование в качестве программируемого компьютера, не обязательно требуют сложных архитектур вроде трансформеров.
PDF
Rethinking Data Selection at Scale: Random Selection is Almost All You Need
Tingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin
9 декабря 2024
Контролируемая тонкая настройка (SFT) играет ключевую роль в согласовании больших языковых моделей (LLM) с человеческими инструкциями. Основная цель SFT — выбрать небольшое, но репрезентативное подмножество обучающих данных из общего пула так, чтобы тонкая настройка на этом подмножестве давала результаты, сопоставимые или даже превосходящие результаты, полученные при использовании всего набора данных. Однако большинство существующих методов выбора данных предназначены для небольших пулов данных и не соответствуют требованиям реальных сценариев SFT. В этой работе мы воспроизвели несколько методов самооценки (не требующих помощи внешних моделей) на наборах данных масштаба в два миллиона и обнаружили, что почти все методы не смогли значительно превзойти случайный выбор при работе с такими крупномасштабными пулами данных. Более того, наши сравнения показывают, что во время SFT разнообразие в выборе данных важнее, чем просто фокусировка на данных высокого качества. Мы также проанализировали ограничения нескольких современных подходов, объяснив, почему они плохо работают с крупномасштабными наборами данных и почему они непригодны для таких контекстов. Наконец, мы обнаружили, что фильтрация данных по длине токенов предлагает стабильный и эффективный метод улучшения результатов. Этот подход, особенно при обучении на длинных текстовых данных, оказывается весьма полезным для относительно слабых базовых моделей, таких как Llama3.
PDF
Noise is All You Need: Private Second-Order Convergence of Noisy SGD
Dmitrii Avdiukhin, Michael Dinitz, Chenglin Fan, Grigory Yaroslavtsev
9 октября 2024
Приватная оптимизация — важная тема в машинном обучении, где дифференциально приватный стохастический градиентный спуск (DP-SGD) играет ключевую роль как в теории, так и на практике. Более того, DP-SGD является мощным инструментом не только для обеспечения приватности, но и для других задач, таких как устойчивость и "забывание" в машинном обучении. Существующие анализы DP-SGD либо делают относительно сильные предположения (например, липшицеву непрерывность функции потерь или даже выпуклость), либо доказывают только сходимость первого порядка (что в невыпуклых задачах может привести к остановке в седловой точке). В то же время достигнут прогресс в доказательстве сходимости второго порядка для не-приватной версии "noisy SGD", а также в разработке более сложных алгоритмов, гарантирующих сходимость второго порядка. Мы пересматриваем DP-SGD и показываем, что "шума достаточно": шум, необходимый для обеспечения приватности, уже подразумевает сходимость второго порядка при стандартных предположениях о гладкости, даже для нелипшицевых функций потерь. Таким образом, мы получаем сходимость второго порядка практически "бесплатно": DP-SGD, рабочий инструмент современной приватной оптимизации, при минимальных предположениях может использоваться для нахождения стационарных точек второго порядка.
PDF
Grounding is All You Need? Dual Temporal Grounding for Video Dialog
You Qin, Wei Ji, Xinze Lan, Hao Fei, Xun Yang, Dan Guo, Roger Zimmermann, Lizi Liao
14 ноября 2024
В области генерации ответов для видео-диалогов понимание содержания видео и временных нюансов истории разговора имеет первостепенное значение. В то время как часть современных исследований сильно зависит от крупномасштабных предобученных визуально-языковых моделей и часто игнорирует временную динамику, другие углубляются в пространственно-временные отношения внутри видео, но требуют сложного предварительного извлечения траекторий объектов и упускают временную динамику диалога. В данной работе представлена модель Dual Temporal Grounding-enhanced Video Dialog (DTGVD), стратегически разработанная для объединения сильных сторон обоих подходов. Она подчеркивает двойные временные отношения путем прогнозирования временных регионов, специфичных для реплик диалога, фильтрации видео-контента соответственно и закрепления ответов как в видео, так и в контексте диалога. Одной из отличительных особенностей DTGVD является повышенное внимание к хронологическому взаимодействию. Распознавая зависимости между различными репликами диалога, модель фиксирует более тонкую динамику разговора. Для дальнейшего усиления согласованности между временной динамикой видео и диалога мы реализовали стратегию контрастного обучения по списку. В рамках этого подбора точно закрепленные пары "реплика-клип" обозначаются как положительные примеры, а менее точные — как отрицательные. Эта классификация затем интегрируется в нашу комплексную end-to-end систему генерации ответов. Оценки на наборах данных AVSD@DSTC-7 и AVSD@DSTC-8 подтверждают превосходство нашей методологии.
PDF
Unlearnable 3D Point Clouds: Class-wise Transformation Is All You Need
Xianlong Wang, Minghui Li, Wei Liu, Hangtao Zhang, Shengshan Hu, Yechao Zhang, Ziqi Zhou, Hai Jin
4 октября 2024
Традиционные стратегии "необучаемости" были предложены для предотвращения несанкционированного обучения на 2D-изображениях. С увеличением объема 3D-данных облаков точек, содержащих конфиденциальную информацию, несанкционированное использование этого типа данных также стало серьезной проблемой. Для ее решения мы предлагаем первую комплексную структуру для создания необучаемых 3D-облаков точек, включающую два процесса: (i) схему защиты данных, основанную на класс-специфичных настройках, созданных стратегией категориально-адаптивного распределения и множественных преобразованиях, применяемых к образцам; (ii) схему восстановления данных, использующую класс-специфичные обратные матричные преобразования, что позволяет авторизованным пользователям обучаться на необучаемых данных. Этот процесс восстановления является практической проблемой, которую игнорирует большинство существующих работ по необучаемости — даже авторизованные пользователи сталкиваются с трудностями при извлечении знаний из необучаемых 3D-данных. Теоретические и эмпирические результаты (включая 6 наборов данных, 16 моделей и 2 задачи) демонстрируют эффективность предложенной структуры. Код доступен по адресу: https://github.com/CGCL-codes/UnlearnablePC
PDF
Geometry is All You Need: A Unified Taxonomy of Matrix and Tensor Factorization for Compression of Generative Language Models
Mingxue Xu, Sadia Sharmin, Danilo P. Mandic
3 октября 2024
Матричные и тензорные параметризации для моделей обработки естественного языка (NLP) принципиально полезны для повышения системной эффективности моделей. Однако внутренние связи между этими алгебраическими структурами и параметризацией языковых моделей плохо изучены. Кроме того, существующие исследования матриц и тензоров слишком математизированы и далеки от концепций машинного обучения (ML) и NLP. Эти две проблемы приводят к тому, что современные достижения в области матриц и тензоров для параметризации моделей выглядят скорее как набор разрозненных компонентов, чем как структурированный единый подход, что затрудняет проектирование алгоритмов. В этой работе мы предлагаем единую таксономию, связывающую методы сжатия на основе матриц/тензоров с концепциями сжатия моделей в ML и NLP. А именно, мы используем элементарное понятие линейной алгебры — подпространство, которое также является ключевой концепцией геометрической алгебры, чтобы переформулировать матричные/тензорные и ML/NLP концепции (например, механизм внимания) в единой системе. Таким образом, на основе нашей формализации подпространств типичные алгоритмы матричных и тензорных разложений могут интерпретироваться как геометрические преобразования. Наконец, мы анализируем современные работы по сжатию языковых моделей с использованием матриц и тензоров, перефразируем и сравниваем их основные идеи, а затем указываем на текущие пробелы в исследованиях и потенциальные решения.
PDF
Propaganda is all you need
Paul Kronlund-Drouault
13 сентября 2024
Поскольку машинное обучение (ML) остается (относительно) новой областью исследований, особенно за пределами абстрактной математики, мало работ посвящено политическим аспектам больших языковых моделей (LLM), и в частности процессу их "выравнивания" (alignment) и его политическому измерению. Этот процесс может быть простым, как prompt-инжиниринг, но также глубоко влиять на совершенно несвязанные вопросы. Например, политически направленное выравнивание сильно влияет на пространство эмбеддингов LLM и относительное положение политических понятий в таком пространстве. Используя специальные инструменты для оценки общего политического уклона и анализа эффектов выравнивания, мы можем получить новые данные для понимания его причин и возможных последствий для общества. Действительно, используя социально-политический подход, мы можем предположить, что большинство крупных LLM выровнены в соответствии с тем, что марксистская философия называет "доминирующей идеологией". Поскольку ИИ играет роль в политическом принятии решений — как на уровне граждан, так и в государственных учреждениях — такие предубеждения могут иметь огромное влияние на социальные изменения, либо создавая новый скрытый путь для унификации общества, либо позволяя замаскированным экстремистским взглядам набирать популярность среди людей.
PDF
Addition is All You Need for Energy-efficient Language Models
Hongyin Luo, Wei Sun
2 октября 2024
Большие нейронные сети тратят большую часть вычислений на операции умножения тензоров с плавающей запятой. В этой работе мы обнаруживаем, что операцию умножения с плавающей запятой можно аппроксимировать одним целочисленным сложением с высокой точностью. Мы предлагаем алгоритм умножения с линейной сложностью L-Mul, который аппроксимирует умножение чисел с плавающей запятой с помощью операций целочисленного сложения. Новый алгоритм требует значительно меньше вычислительных ресурсов, чем 8-битное умножение с плавающей запятой, но достигает более высокой точности. Поскольку умножение чисел с плавающей запятой требует значительно больше энергии по сравнению с целочисленным сложением, применение операции L-Mul в аппаратном обеспечении для обработки тензоров может потенциально сократить энергопотребление на 95% для поэлементных умножений тензоров и на 80% для скалярных произведений. Мы рассчитали теоретическую ожидаемую ошибку L-Mul и оценили алгоритм на широком спектре текстовых, визуальных и символических задач, включая понимание естественного языка, структурные рассуждения, математику и ответы на вопросы общего характера. Наши численные эксперименты согласуются с теоретической оценкой ошибки, что указывает на то, что L-Mul с 4-битной мантиссой достигает точности, сопоставимой с умножениями float8_e4m3, а L-Mul с 3-битной мантиссой превосходит float8_e5m2. Результаты оценки на популярных бенчмарках показывают, что прямое применение L-Mul к механизму внимания практически не приводит к потере точности. Мы также показываем, что замена всех умножений с плавающей запятой на L-Mul с 3-битной мантиссой в трансформерной модели дает точность, эквивалентную использованию float8_e4m3 как точности накопления при тонкой настройке и выводе.
PDF
Evidence Is All You Need: Ordering Imaging Studies via Language Model Alignment with the ACR Appropriateness Criteria
Michael S. Yao, Allison Chae, Charles E. Kahn Jr., Walter R. Witschey, James C. Gee, Hersh Sagreiya, Osbert Bastani
1 октября 2024
Диагностические визуализационные исследования становятся все более важным компонентом обследования и лечения пациентов с острыми состояниями. Однако назначение соответствующих исследований в соответствии с доказательными медицинскими рекомендациями — сложная задача, характеризующаяся высокой вариативностью среди медицинских работников. Чтобы решить эту проблему, в последнее время исследуется возможность использования генеративного ИИ и больших языковых моделей для помощи клиницистам в назначении соответствующих исследований. Однако сложно гарантировать, что эти инструменты правильно выровнены с медицинскими рекомендациями, такими как Критерии соответствия Американского колледжа радиологии (ACR AC). В этом исследовании мы представляем структуру для интеллектуального использования языковых моделей при рекомендации визуализационных исследований, соответствующих доказательным рекомендациям. Мы предоставляем новый набор данных сценариев пациентов ("one-liner") для наших экспериментов и оптимизируем современные языковые модели для достижения точности на уровне клиницистов при назначении исследований. Наконец, мы демонстрируем, что наш конвейер на основе языковых моделей может использоваться в качестве интеллектуального помощника для клиницистов, поддерживая рабочие процессы назначения исследований и повышая точность назначений в соответствии с ACR AC. Наша работа демонстрирует и подтверждает стратегию использования ИИ-программ для улучшения доверенного клинического принятия решений в соответствии с экспертными доказательными рекомендациями.
PDF
Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis
Salaheldin Mohamed, Dong Han, Yong Li
2 октября 2024
Текст-к-изображению (T2I) модели значительно продвинули развитие искусственного интеллекта, позволяя генерировать высококачественные изображения в различных контекстах на основе текстовых запросов. Однако существующие методы на основе T2I часто не могут точно воспроизвести внешность человека из референсного изображения и создать новые представления этого человека в различных условиях. Для решения этой проблемы мы используем предобученную UNet из Stable Diffusion, чтобы напрямую включить целевое изображение лица в процесс генерации. Наш подход отличается от предыдущих методов, которые зависят от фиксированных энкодеров или статических эмбеддингов лиц, часто не способных преодолеть разрыв в кодировании. Вместо этого мы используем sophisticated возможности кодирования UNet для обработки референсных изображений на нескольких масштабах. Инновационно изменяя кросс-аттеншн слои UNet, мы эффективно сливаем индивидуальные идентичности в генеративный процесс. Эта стратегическая интеграция черт лица на различных масштабах не только повышает надежность и согласованность генерируемых изображений, но и облегчает эффективную мульти-референсную и мульти-идентичностную генерацию. Наш метод устанавливает новый стандарт в генерации изображений с сохранением идентичности, демонстрируя state-of-the-art результаты в метриках схожести при сохранении соответствия запросу.
PDF
Emu3: Next-Token Prediction is All You Need
Xinhong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jinqjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang
27 сентября 2024
Хотя предсказание следующего токена считается перспективным путем к искусственному общему интеллекту, оно испытывало трудности в мультимодальных задачах, где доминируют диффузионные модели (например, Stable Diffusion) и композиционные подходы (например, CLIP в сочетании с LLM). В этой работе мы представляем Emu3 — новое семейство современных мультимодальных моделей, обученных исключительно на предсказании следующего токена. Токенизируя изображения, текст и видео в дискретное пространство, мы обучаем единый трансформер с нуля на смеси мультимодальных последовательностей. Emu3 превосходит несколько устоявшихся специализированных моделей в задачах генерации и восприятия, опережая флагманские модели, такие как SDXL и LLaVA-1.6, при этом устраняя необходимость в диффузионных или композиционных архитектурах. Emu3 также способен генерировать высококачественные видео, предсказывая следующий токен в видео-последовательности. Мы упрощаем сложные конструкции мультимодальных моделей, сосредоточившись на единой концепции: токенах, раскрывая огромный потенциал для масштабирования как во время обучения, так и вывода. Наши результаты демонстрируют, что предсказание следующего токена — перспективный путь к созданию общего мультимодального интеллекта за пределами языка. Мы открываем ключевые техники и модели для поддержки дальнейших исследований в этом направлении.
PDF
Active Vision Might Be All You Need: Exploring Active Vision in Bimanual Robotic Manipulation
Ian Chuang, Andrew Lee, Dechen Gao, M-Mahdi Naddaf-Sh, Iman Soltani
7 марта 2025
Обучение с подражанием продемонстрировало значительный потенциал в выполнении задач высокоточного манипулирования с использованием визуальной обратной связи. Однако в обучении с подражанием камеры обычно фиксируются на месте, что приводит к проблемам, таким как окклюзия и ограниченное поле зрения. Кроме того, камеры часто размещаются в общих местах без эффективного ракурса, специфичного для задачи робота. В этой работе мы исследуем полезность активного зрения (AV) для обучения с подражанием и манипулирования, где, помимо политики манипулирования, робот обучает политику AV на человеческих демонстрациях, чтобы динамически изменять ракурс камеры для получения лучшей информации об окружении и задаче. Мы представляем AV-ALOHA — новую систему бимануального телеуправления с AV, расширение системы робота ALOHA 2, включающее дополнительную 7-степенную руку, которая несет только стереокамеру и занимается исключительно поиском наилучшего ракурса. Эта камера передает стереовидео оператору в VR-шлеме, позволяя оператору управлять положением камеры движениями головы и тела. Система обеспечивает immersive опыт телеуправления с бимануальным контролем от первого лица, позволяя оператору динамически исследовать сцену и одновременно взаимодействовать с окружением. Мы проводим эксперименты по обучению с подражанием как в реальном мире, так и в симуляции, на различных задачах, требующих планирования ракурса. Наши результаты демонстрируют эффективность человеко-направленного AV для обучения с подражанием, показывая значительные улучшения по сравнению с фиксированными камерами в задачах с ограниченной видимостью.
PDF
One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks
Sebastian Nehrdich, Oliver Hellwig, Kurt Keutzer
20 сентября 2024
Морфологически богатые языки традиционно сложны для обработки в NLP. В этой работе представлена новая предобученная языковая модель ByT5-Sanskrit, разработанная для NLP-приложений на санскрите. Мы оцениваем ByT5-Sanskrit на задачах сегментации слов, где она значительно превосходит предыдущие data-driven подходы и соответствует производительности лучшей лексикон-базированной модели. Она проще в развертывании и более устойчива к данным, не покрытым внешними лингвистическими ресурсами. Модель также устанавливает новые state-of-the-art результаты в задачах парсинга зависимостей и пост-коррекции OCR для медицинских текстов на санскрите. На основе Digital Corpus of Sanskrit мы представляем новый мультитасковый датасет для совместного обучения сегментации, лемматизации и морфосинтаксической разметки. Мы дообучаем ByT5-Sanskrit на этом датасете, создавая универсальную модель для различных NLP-приложений на санскрите. Модель использовалась в лингвистической разметке, информационном поиске и как препроцессинг в машинном переводе. Мы также показываем, что наш подход дает лучшие результаты для лемматизации и парсинга других морфологически богатых языков, демонстрируя, что byte-level модели могут превосходить tokenizer-based модели для таких языков.
PDF
A short trajectory is all you need: A transformer-based model for long-time dissipative quantum dynamics
Luis E. Herrera Rodríguez, Alexei A. Kananenka
14 октября 2024
В этой работе мы демонстрируем, что глубокая нейронная сеть на основе трансформерной архитектуры с self-attention слоями может предсказывать долговременную популяционную динамику квантовой системы, связанной с диссипативным окружением, если известна её кратковременная динамика. Наша модель эффективно и точно предсказывает динамику spin-boson модели в различных режимах — от слабой связи до сильной не-Марковской. Модель точнее классических forecasting моделей, таких как рекуррентные сети, и сравнима с state-of-the-art методами для симуляции квантовой диссипативной динамики на основе kernel ridge regression.
PDF
Gaussian is All You Need: A Unified Framework for Solving Inverse Problems via Diffusion Posterior Sampling
Nebiyou Yismaw, Ulugbek S. Kamilov, M. Salman Asif
13 сентября 2024
Диффузионные модели могут генерировать разнообразные высококачественные изображения, моделируя сложные распределения данных. Обученные диффузионные модели также могут служить эффективными априорными распределениями для решения обратных задач. Большинство существующих диффузионных методов интегрируют шаги согласования данных в процесс обратного сэмплирования. Эти шаги основаны на приближенной функции правдоподобия. В данной работе мы показываем, что существующие приближения либо недостаточны, либо вычислительно неэффективны. Для решения этих проблем мы предлагаем унифицированный метод аппроксимации правдоподобия, который включает корректирующий член ковариации для повышения производительности и избегает распространения градиентов через диффузионную модель. Этот корректирующий член, интегрированный в процесс обратного диффузионного сэмплирования, обеспечивает лучшую сходимость к истинному апостериорному распределению для выбранных распределений и улучшает результаты на реальных наборах данных изображений. Кроме того, мы представляем эффективный способ факторизации и инверсии ковариационной матрицы функции правдоподобия для нескольких обратных задач. Эксперименты демонстрируют превосходство нашего метода над существующими подходами.
PDF
Alignment with Preference Optimization Is All You Need for LLM Safety
Reda Alami, Ali Khalifa Almansoori, Ahmed Alzubaidi, Mohamed El Amine Seddik, Mugariya Farooq, Hakim Hacid
12 сентября 2024
Мы демонстрируем, что методы оптимизации предпочтений могут эффективно повысить безопасность LLM. Применяя различные техники выравнивания к модели Falcon 11B на наборах данных по безопасности, мы добились значительного улучшения глобального показателя безопасности (с 57.64% до 99.90%), измеренного с помощью LlamaGuard 3 8B, что сопоставимо с современными моделями. На токсичных бенчмарках средние показатели в адверсарных условиях снизились с более чем 0.6 до менее 0.07. Однако это улучшение безопасности достигается за счет снижения общих возможностей, особенно в математике, что указывает на компромисс. Мы идентифицировали noise contrastive alignment (Safe-NCA) как оптимальный метод для баланса безопасности и производительности. Наше исследование показывает, что техники выравнивания могут быть достаточными для создания безопасных и надежных моделей.
PDF
MoA is All You Need: Building LLM Research Team using Mixture of Agents
Sandy Chen, Leqi Zeng, Abhinav Raghunathan, Flora Huang, Terrence C. Kim
13 сентября 2024
Исследования больших языковых моделей (LLM) в финансовой области особенно сложны из-за множества предлагаемых подходов. Retrieval-Augmented Generation (RAG) стал одним из ведущих методов благодаря своей обоснованности и вариативности источников данных. В этой работе мы представляем фреймворк RAG под названием Mixture of Agents (MoA), демонстрируя его практичность, настраиваемость и эффективность для масштабирования RAG-приложений. MoA представляет собой слоистую сеть из индивидуально настроенных небольших языковых моделей, совместно отвечающих на вопросы и извлекающих информацию. Несмотря на теоретические предложения таких архитектур, существует мало исследований, оценивающих их потенциал с учетом реальных ограничений, таких как стоимость и скорость. Мы обнаружили, что MoA, состоящий из небольших языковых моделей, обеспечивает более качественные и обоснованные ответы в различных финансовых областях, критически важных для бизнеса Vanguard, при этом сохраняя низкие затраты.
PDF
Dot Product is All You Need: Bridging the Gap Between Item Recommendation and Link Prediction
Daniele Malitesta, Alberto Carlo Maria Mancino, Pasquale Minervini, Tommaso Di Noia
11 сентября 2024
Рекомендация товаров (предсказание взаимодействия пользователя с новыми товарами) и предсказание связей (идентификация отсутствующих связей в графе знаний) традиционно считались разными задачами. В этой работе мы показываем, что рекомендацию товаров можно рассматривать как частный случай предсказания связей, где сущности графа представляют пользователей и товары, а задача сводится к предсказанию отсутствующих связей типа <<interactsWith>>. Мы тестируем три популярные модели факторизации для предсказания связей на задаче рекомендации, демонстрируя их конкурентоспособность с десятью современными рекомендательными моделями. Это подтверждает, что модели предсказания связей могут эффективно применяться для рекомендаций без модификаций. Мы также исследуем влияние гиперпараметров, открывая новые направления для будущих исследований.
PDF
Inference is All You Need: Self Example Retriever for Cross-domain Dialogue State Tracking with ChatGPT
Jinyun Lee, Gary Geunbae Lee
10 сентября 2024
Традиционные методы трекинга диалоговых состояний зависят от больших объемов обучающих данных и ручных признаков, что ограничивает их масштабируемость и адаптивность к новым доменам. В этой работе мы предлагаем метод, использующий вывод и in-context обучение с ChatGPT для переноса знаний между доменами без обновления параметров. Направляя цепочку рассуждений ChatGPT, мы позволяем ему извлекать релевантные примеры и обобщать знания для точного вывода состояний диалога. Эксперименты на наборе MultiWOZ демонстрируют конкурентоспособную производительность и перспективную обобщаемость. Наш параметр-фри подход предлагает масштабируемое решение, открывая новые направления в transfer learning.
PDF
100 instances is all you need: predicting the success of a new LLM on unseen data by testing on a few instances
Lorenzo Pacchiardi, Lucy G. Cheke, José Hernández-Orallo
5 сентября 2024
Предсказание производительности LLM на отдельных примерах задач важно для обеспечения их надежности в критических приложениях. Обычно для этого требуется оценить LLM на множестве примеров и обучить ассессора. Мы предлагаем сократить количество оценок, используя результаты ранее тестированных LLM. Наш метод тестирует новую LLM на небольшом наборе референсных примеров и обучает универсальный ассессор, предсказывающий производительность на основе характеристик примера. Эксперименты на HELM-Lite и KindsOfReasoning (новый набор данных) с моделями OpenAI показывают, что случайный выбор референсных примеров работает не хуже сложных методов. Однако для данных вне распределения производительность ниже, что указывает на ограниченную предсказуемость LLM.
PDF
One Homography is All You Need: IMM-based Joint Homography and Multiple Object State Estimation
Paul Johannes Claasen, Johan Pieter de Villiers
14 ноября 2024
Мы предлагаем новый онлайн-алгоритм MOT (IMM-JHSE), использующий начальную оценку гомографии как единственную 3D-информацию. Совместно моделируя гомографию и её динамику как часть векторов состояния, IMM-JHSE устраняет влияние компенсации движения камеры на предсказанные позиции, характерное для предыдущих подходов. Алгоритм сочетает статические и динамические модели движения камеры через IMM-фильтр и использует простую модель bounding box для включения информации изображения. IMM-JHSE превосходит UCMCTrack, OC-SORT и другие на DanceTrack и KITTI-car (улучшение HOTA на 2.64 и 2.11), демонстрируя конкурентоспособность на MOT17 и MOT20. Код доступен: GitHub.
PDF
Training on the Benchmark Is Not All You Need
Shiwen Ni, Xiangtao Kong, Chengming Li, Xiping Hu, Ruifeng Xu, Jia Zhu, Min Yang
27 февраля 2025
Успех LLM зависит от огромных данных предобучения, но непрозрачность этого процесса делает результаты бенчмарков ненадежными. Мы предлагаем метод обнаружения утечки данных на основе перестановки вариантов в вопросах с множественным выбором. Если модель показывает аномально высокую вероятность для исходного порядка, данные утекли. Метод работает в серых ящиках без доступа к данным или весам модели. Эксперименты с двумя LLM и четырьмя бенчмарками выявили утечки в 35 открытых моделях, особенно в семействе Qwen.
PDF
Attention is all you need for an improved CNN-based flash flood susceptibility modeling
Akram Elghouat, Ahmed Algouti, Abdellah Algouti, Soukaina Baid
3 августа 2024
Эффективное управление рисками наводнений требует оценки и прогнозирования уязвимости к внезапным паводкам. CNN часто используются для этой задачи, но сталкиваются с проблемами взрыва градиентов и переобучения. В этом исследовании изучается использование механизма внимания (CBAM) для улучшения CNN-моделей в водоразделе Rheraya (Марокко). Мы интегрировали CBAM в ResNet18, DenseNet121 и Xception, используя 16 факторов и 522 точки данных. Результаты показали, что CBAM значительно улучшает производительность, особенно для DenseNet121 (точность = 0.95, AUC = 0.98). Ключевыми факторами оказались расстояние до реки и плотность дренажной сети. Эти результаты демонстрируют эффективность механизма внимания для моделирования уязвимости к наводнениям.
PDF
Downstream bias mitigation is all you need
Arkadeep Baksi, Rahul Singh, Tarun Joshi
1 августа 2024
Трансформерные архитектуры и LLM значительно улучшили производительность NLP-моделей, но вызывают опасения по поводу вредных предубеждений из обучающих данных. Мы изучили влияние предобучения и дообучения на смещения моделей. Контролируемые вмешательства на этапе предобучения слабо влияют на снижение смещений, в то время как устранение смещений в данных дообучения дает значительный эффект. Даже небольшие изменения в частоте совместного появления признаков при дообучении сильно влияют на итоговые смещения модели.
PDF
HDL-GPT: High-Quality HDL is All You Need
Bhuvnesh Kumar, Saurav Nanda, Ganapathy Parthasarathy, Pawan Patil, Austin Tsai, Parivesh Choudhary
25 июля 2024
Мы представляем HDL-GPT — подход, использующий открытые HDL-коды для обучения мощных моделей. Тщательный отбор и аугментация HDL-данных позволяют создавать модели с исключительной производительностью и способностью к обобщению. Наши эксперименты показывают улучшение на 50-200% по сравнению с современными аналогами в задачах объяснения схем, генерации кода, создания тестов и исправления ошибок. HDL-GPT открывает новые возможности для разработки моделей проектирования схем.
PDF
DC is all you need: describing ReLU from a signal processing standpoint
Christodoulos Kechris, Jonathan Dan, Jose Miranda, David Atienza
23 июля 2024
Активационные функции в CNN плохо изучены в частотной области. Мы анализируем спектральное поведение ReLU через ряд Тейлора, показывая, что ReLU вносит высокочастотные колебания и DC-компоненту. Эксперименты подтверждают, что DC-компонента помогает модели извлекать значимые признаки, связанные с частотным содержанием входных данных, и способствует сходимости к конфигурациям весов, близким к начальным случайным значениям.
PDF
Chameleon: Images Are What You Need For Multimodal Learning Robust To Missing Modalities
Muhammad Irzam Liaqat, Shah Nawaz, Muhammad Zaigham Zaheer, Muhammad Saad Saeed, Hassan Sajjad, Tom De Schepper, Karthik Nandakumar, Muhammad Haris Khan, Markus Schedl
23 июля 2024
Мы предлагаем Chameleon — метод мультимодального обучения, кодирующий текстовую модальность в визуальные представления, что устраняет необходимость в модальностно-специфичных ветвях. Наши эксперименты на Hateful Memes, UPMC Food-101, MM-IMDb и Ferramenta показывают, что Chameleon не только превосходит аналоги при наличии всех модальностей, но и демонстрирует устойчивость при их отсутствии.
PDF
CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models
Zheng Chong, Xiao Dong, Haoxiang Li, Shiyue Zhang, Wenqing Zhang, Xujie Zhang, Hanqing Zhao, Dongmei Jiang, Xiaodan Liang
21 июля 2024
CatVTON — это эффективная диффузионная модель для виртуальной примерки, использующая конкатенацию изображений одежды и человека. Модель содержит только VAE и упрощенный UNet (899.06M параметров), устраняя сложные предобработки. Обучение фокусируется на self-attention слоях (49.57M параметров), что сокращает использование памяти на 49% по сравнению с аналогами. Эксперименты подтверждают превосходство CatVTON в качественных и количественных показателях.
PDF
Attention Is All You Need But You Don't Need All Of It For Inference of Large Language Models
Georgy Tyukin, Gbetondji J-S Dovonon, Jean Kaddour, Pasquale Minervini
22 июля 2024
Мы исследуем влияние удаления MLP и attention-слоев при выводе Llama-v2. Пропуск 33% attention-слоев в 13B модели приводит к падению производительности всего на 1.8% (OpenLLM benchmark), обеспечивая значительное ускорение. Пропуск слоев, кроме последних, минимально влияет на производительность при исключении attention-слоев.
PDF
Sparse Prior Is Not All You Need
Fei Zhou, Maixia Fu, Yulei Qian, Jian Yang, Yimian Dai
22 июля 2024
Для обнаружения малых ИК-целей мы предлагаем SDD — фреймворк, использующий дифференциальную направленность и стратегию когерентности значимости. SDD применяет разреженные ограничения к дифференциальным направленным изображениям и матрице разности непрерывности, улучшая контраст целей. Эксперименты показывают превосходство над 10 современными методами. Код доступен: GitHub.
PDF
Is Behavior Cloning All You Need? Understanding Horizon in Imitation Learning
Dylan J. Foster, Adam Block, Dipendra Misra
20 июля 2024
Мы пересматриваем разрыв между оффлайн и онлайн обучением с подражанием. Анализ BC с логарифмическими потерями показывает возможность достижения горизонта-независимой сложности выборок при контроле кумулятивных выигрышей и сложности обучения. Для детерминированных политик оффлайн IL может достичь линейной зависимости от горизонта при плотных наградах, а онлайн IL не может улучшить оффлайн IL без дополнительных предположений.
PDF
Beta Sampling is All You Need
Haeil Lee, Hansang Lee, Seoyeon Gye, Junmo Kim
16 июля 2024
Мы предлагаем метод Beta-сэмплинга временных шагов для диффузионных моделей, основанный на спектральном анализе. Приоритизация критических шагов (ранних и поздних) улучшает FID и IS по сравнению с равномерным сэмплингом. Эксперименты с ADM и Stable Diffusion подтверждают эффективность метода, сопоставимую с AutoDiffusion.
PDF
Context is All You Need
Jixiang Luo
16 июля 2024
Анализ масштабирования компонентов LIC показывает, что контекстная модель и декодер играют ключевую роль. Оптимизация контекста через переобучение улучшает PSNR, давая выигрыш 14.39% (BD-RATE) по сравнению с VVC.
PDF
Explanation is All You Need in Distillation
Pedro R. A. S. Bassi, Andrea Cavalli, Sergio Decherchi
13 июля 2024
Мы предлагаем дистилляцию объяснений (например, LRP) для борьбы с shortcut learning. Метод не требует несмещенных данных и превосходит группово-инвариантное обучение и дистилляцию признаков. На COLOURED MNIST LRP-дистилляция достигла 98.2% OOD-точности против 60.2% у IRM.
PDF
Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text
Lucio La Cava, Davide Costa, Andrea Tagarelli
17 марта 2025
Прогресс в области больших языковых моделей (LLM) затрудняет различение текстов, созданных человеком и ИИ. Мы предлагаем WhosAI — контрастивный фреймворк на основе триплет-сетей, который одновременно решает задачи детекции и атрибуции AI-текстов. В отличие от существующих методов, WhosAI учится представлять семантическое сходство для множества генераторов, оставаясь модель-агностичным и масштабируемым для новых генераторов. Эксперименты на 200K новостных статей из TuringBench показывают, что WhosAI превосходит все методы в задачах "Теста Тьюринга" и атрибуции авторства.
PDF
Accuracy is Not All You Need
Abhinav Dutta, Sanjeev Krishnan, Nipun Kwatra, Ramachandran Ramjee
12 июля 2024
При сжатии LLM (например, квантовании) традиционно оценивают только точность на бенчмарках. Мы обнаруживаем феномен "переворотов" — изменений правильных ответов на неправильные (и наоборот), даже при сохранении точности. Исследование метрик на различных методах сжатия показывает, что поведение сжатых моделей существенно отличается от базовых, особенно в генеративных задачах (MT-Bench). Мы предлагаем дополнительно оценивать сжатие через KL-дивергенцию и частоту переворотов, демонстрируя их корреляцию.
PDF
Vision Language Model is NOT All You Need
Namkyeong Lee, Siddhartha Laghuvarapu, Chanyoung Park, Jimeng Sun
23 июля 2024
Молекулярные языковые модели (MoLM) отстают от VLM из-за: (1) недостатка пар "молекула-текст" и (2) узкой экспертизы в специализированных областях. Мы предлагаем AMOLE, который: (1) аугментирует пары через обобщение описаний структурно схожих молекул с сохранением сходства, (2) переносит экспертизу между молекулами через reconstruction loss. Эксперименты показывают превосходство AMOLE в понимании молекул, открывая перспективы для разработки лекарств. Код: GitHub.
PDF
Lite-SAM Is Actually What You Need for Segment Everything
Jianhai Fu, Yuanjie Yu, Ningchuan Li, Yi Zhang, Qichao Chen, Jianping Xiong, Jun Yin, Zhiyu Xiang
11 июля 2024
Lite-SAM — эффективное решение для задачи SegEvery с 4 компонентами: (1) облегченный гибридный энкодер LiteViT (1.16M параметров), (2) AutoPPN для автоматического предложения промптов, (3) классический промпт-энкодер, (4) декодер масок. При 4.2M параметров Lite-SAM превосходит SAM, MobileSAM и аналоги в 20-43 раза по скорости, сохраняя точность. AutoPPN совместим с любыми SAM-алгоритмами.
PDF
Bucket Pre-training Is All You Need
Hongtao Liu, Qiyao Peng, Qing Yang, Kai Liu, Hongyan Xu
10 июля 2024
Традиционное предобучение LLM с фиксированной длиной данных вводит шум и ограничивает долгосрочные зависимости. Мы предлагаем мульти-бакетный метод композиции данных, оцениваемый через: (1) долю padding, (2) долю усечения, (3) долю конкатенации. Эксперименты показывают, что метод улучшает эффективность и качество предобучения.
PDF
Is Large Language Model All You Need to Predict the Synthesizability and Precursors of Crystal Structures?
Zhilong Song, Shuaihua Lu, Minggang Ju, Qionghua Zhou, Jinlan Wang
9 июля 2024
Мы разрабатываем CSLLM — три LLM для предсказания: (1) синтезируемости (точность 98.6%, +106.1% к термодинамическим методам), (2) методов синтеза (91.02%), (3) прекурсоров (80.2%). Набор из 140,120 структур и текстовое представление кристаллов позволяют fine-tuning. CSLLM включает интерфейс для автоматических предсказаний из CIF-файлов.
PDF
An accurate detection is not all you need to combat label noise in web-noisy datasets
Paul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness
7 июля 2024
Контрастивное обучение на зашумленных данных разделяет ID/OOD выборки линейно, но это не улучшает точность классификации. Мы обнаруживаем, что "простые" чистые примеры плохо отделяются от OOD, но легко детектируются loss-методами. Гибридный метод, сочетающий линейное разделение и PLS, улучшает state-of-the-art. Код: GitHub.
PDF
Raw Text is All you Need
Xia Hou, Qifeng Li, Jian Yang, Tongliang Li, Linzheng Chai, Xianjie Wu, Hangyuan Ji, Zhoujun Li, Jixuan Nie, Jingbo Dun, Wenfeng Song
3 июля 2024
Abstract (перевод):
R2S — фреймворк для генерации диалогов из сырых документов через CoD-Chain (логику цепочек диалогов). Созданные данные (K-BENCH: Wikipedia, Science, Artifacts) сохраняют знания документов в диалогах. Fine-tuning модели GLLM улучшает адаптивность LLM для domain-specific задач.
PDF
Transferable-guided Attention Is All You Need for Video Domain Adaptation
André Sacilotti, Samuel Felipe dos Santos, Nicu Sebe, Jurandy Almeida
1 июля 2024
TransferAttn адаптирует ViT для видео-UDA через Domain Transferable-guided Attention Block (DTAB), заменяющий self-attention на "внимание трансфера". Эксперименты на UCF-HMDB, Kinetics-Gameplay и Kinetics-NEC Drone с ResNet101, I3D, STAM показывают превосходство над аналогами. DTAB улучшает другие transformer-based методы UDA. Код: GitHub.
PDF
Wavelets Are All You Need for Autoregressive Image Generation
Wael Mattar, Idan Levy, Nir Sharon, Shai Dekel
28 июня 2024
Наш подход использует: (1) вейвлет-кодирование изображений (токенизация от грубых к детальным признакам), (2) модифицированный трансформер для "вейвлет-языка". Модель учит корреляции между вейвлет-подполосами, демонстрируя качественную генерацию с conditioning.
PDF
LightStereo: Channel Boost Is All You Need for Efficient 2D Cost Aggregation
Xianda Guo, Chenming Zhang, Youmin Zhang, Wenzhao Zheng, Dujun Nie, Matteo Poggi, Long Chen
28 июня 2024
LightStereo использует 3D cost volume вместо 4D, фокусируясь на channel dimension. Методы усиления каналов обеспечивают точность при 22 GFLOPs и 17 мс (1-е место на KITTI 2015 среди real-time моделей). Код: GitHub.
PDF
Energy Fingerprint Is All You Need
Tingwei Chen, Yantao Wang, Hanzhi Chen, Zijian Zhao, Xinhao Li, Nicola Piovesan, Guangxu Zhu, Qingjiang Shi
13 июня 2024
Наш метод предсказывает энергопотребление базовых станций 5G через: (1) embedding layer для BSID, (2) masked training + attention. MAPE снижен с 12.75% до 4.98% (+60% к аналогам). Решение заняло 2-е место на ITU Challenge.
PDF
Selected Languages are All You Need for Cross-lingual Truthfulness Transfer
Weihao Liu, Ning Wu, Wenbiao Ding, Shining Liang, Ming Gong, Dongmei Zhang
3 марта 2025
Достоверность — ключевая проблема для LLM, но существующие методы редко учитывают многоязычные сценарии. Мы предлагаем FaMSS — метод кросс-лингвистического переноса достоверности, который: (1) выбирает оптимальное подмножество языков на основе языкового смещения и вклада в перенос, (2) использует instruction tuning с переводом. Эксперименты показывают, что FaMSS уменьшает разрыв в многоязычных представлениях и улучшает перенос достоверности.
PDF
Not Everything is All You Need: Toward Low-Redundant Optimization for Large Language Model Alignment
Zhipeng Chen, Kun Zhou, Wayne Xin Zhao, Jingyuan Wang, Ji-Rong Wen
2 октября 2024
ALLО — метод выравнивания LLM с человеком, оптимизирующий только 10% наиболее значимых параметров. Он: (1) идентифицирует нейроны, связанные с предпочтениями, через градиенты, (2) выделяет ключевые токены с помощью reward-моделей, (3) разделяет процесс на этапы "забывания" и "обучения". Эксперименты на 10 наборах данных подтверждают эффективность. Код: GitHub.
PDF
Attention Score is not All You Need for Token Importance Indicator in KV Cache Reduction
Zhiyu Guo, Hidetaka Kamigaito, Taro Watanabe
1 октября 2024
Для уменьшения KV cache в LLM мы предлагаем VATP — метод оценки важности токенов через: (1) attention scores, (2) ℓ₁-норму value-векторов. Эксперименты на LLaMA2-7B-chat и Vicuna-v1.5-7B (16 задач LongBench) показывают, что VATP превосходит методы, использующие только attention scores, в 12+ задачах.
PDF
MISuRe is all you need to explain your image segmentation
Syed Nouman Hasany, Fabrice Mériaudeau, Caroline Petitjean
18 июня 2024
MISuRe генерирует карты для сегментации, выделяя только критически важные регионы. Алгоритм тестирован на Triangle, COCO-2017 и Synapse multi-organ, демонстрируя потенциал для post-hoc оценки надежности моделей.
PDF
Is More Data Really All You Need?
T. Y. S. S Santosh, Kevin D. Ashley, Katie Atkinson, Matthias Grabmair
15 октября 2024
Мы анализируем интеграцию экспертных знаний в NLP для юридической аргументации, балансируя между масштабируемостью и объяснимостью. Обсуждаются вызовы и потенциал современных NLP-моделей для соединения символьных и data-driven подходов.
PDF
Requirements are All You Need
Bingyang Wei
17 июня 2024
Представлен специализированный LLM для генерации кода из структурированных требований, использующий "Прогрессивные промпты" для: (1) извлечения функциональных требований, (2) создания ОО-моделей, (3) генерации тестов и кода. Кейс с веб-проектом демонстрирует эффективность. Доступ: ChatGPT.
PDF
Zoom and Shift are All You Need
Jiahao Qin
13 июня 2024
Наш метод выравнивания признаков чередует масштабирование (zoom) и сдвиг (shift) для полной интеграции мультимодальных данных. Эксперименты на временных рядах, изображениях и текстах показывают state-of-the-art результаты.
PDF
Memory Is All You Need
Christopher Wolters, Xiaoxuan Yang, Ulf Schlichtmann, Toyotaro Suzumura
12 июня 2024
Compute-in-Memory (CIM) технологии ускоряют вывод LLM, выполняя вычисления непосредственно в памяти. Мы анализируем трансформеры и CIM-архитектуры, обсуждая операторы и схемы аппаратного ускорения для преодоления "стены памяти".
PDF
Taxes Are All You Need
Kiran Kokilepersaud, Yavuz Yarici, Mohit Prabhushankar, Ghassan AlRegib
10 июня 2024
Мы предлагаем контрастивный loss, интегрирующий иерархию таксономии в обучение представлений. Метод улучшает стандартный supervised contrastive loss на 7% в медицинских и noise-задачах.
PDF
Procrastination Is All You Need
Vincenzo Liguori
9 июня 2024
Метод суммирования чисел с плавающей запятой через аккумуляторы, индексированные экспонентами. Реализации для FPGA/ASIC включают MAC-операции. Тензорное ядро для bfloat16 матриц 4×4 работает на 700+ МГц (~6,400 LUT + 64 DSP48).
PDF
SpikeZIP-TF: Conversion is All You Need for Transformer-based SNN
Kang You, Zekai Xu, Chen Nie, Zhijie Deng, Qinghai Guo, Xiang Wang, Zhezhi He
5 июня 2024
SpikeZIP-TF — метод конвертации ANN-to-SNN для трансформерных архитектур, обеспечивающий эквивалентность ANN и SNN без потери точности. Достигает 83.82% точности на ImageNet и 93.79% на SST-2, превосходя современные аналоги. Код доступен: GitHub.
PDF
Prompt Tuning is Not All You Need
Martin Wistuba, Prabhu Teja Sivaprasad, Lukas Balles, Giovanni Zappella
5 июня 2024
Критический анализ использования prompt tuning в continual learning (CL). Замена на LoRA в методах Learning to Prompt и S-Prompts повышает точность на domain- и class-incremental бенчмарках, сохраняя скорость вывода.
PDF
Is Textual Unlearning All You Need?
Trishna Chakraborty, Erfan Shayegani, Zikui Cai, Nael Abu-Ghazaleh, M. Salman Asif, Yue Dong, Amit K. Roy-Chowdhury, Chengy Song
27 мая 2024
Текстовое "разучивание" в VLMs снижает Attack Success Rate до <8% для текстовых и мультимодальных атак без потери utility. Мультимодальное обучение не даёт преимуществ, увеличивая затраты в 6 раз.
PDF
Tree Topology is All You Need
Yicheng Xiao, Lin Song, Shaoli Huang, Jiangshan Wang, Siyu Song, Yixiao Ge, Xiu Li, Ying Shan
4 июня 2024
GrootVL динамически генерирует деревья для feature propagation, преодолевая ограничения последовательностей. Линейный алгоритм динамического программирования усиливает долгосрочные взаимодействия. Код: GitHub.
PDF
Non-uniformity is All You Need
Shilo Daum, Tal Shapira, Anat Bremler-Barr, David Hay
3 июня 2024
ECHO: (1) HO — неравномерные бининги для эффективных представлений трафика, (2) EC — каскад классификаторов для раннего вывода. Снижает задержку на 90% с сохранением точности.
PDF
Similarity is Not All You Need
Chunjing Gan, Dan Yang, Binbin Hu, Hanxiao Zhang, Siyuan Li, Ziqi Liu, Yue Shen, Lin Ju, Zhiqiang Zhang, Jinjie Gu, Lei Liang, Jun Zhou
30 мая 2024
MetRag: (1) utility-ориентированные мысли через малую модель, (2) компактность через суммаризацию LLM. Преимущество на knowledge-intensive задачах.
PDF
Conditioning on Time is All You Need
Mohd Ashhad, Ricardo Henao
27 мая 2024
Генерация синтетических survival-данных через ковариаты, зависящие от времени событий. Преимущество в воспроизведении распределений и улучшении downstream-моделей.
PDF
Requirements are All You Need
Diana Robinson, Christian Cabrera, Andrew D. Gordon, Neil D. Lawrence, Lars Mennen
22 мая 2024
Генеративный ИИ позволяет end-to-end разработку ПО только через требования (текст/изображения/видео). Обсуждаются перспективы и исследования для реализации.
PDF
Comparisons Are All You Need
Cheryl Zhang, Tongyang Li
19 мая 2024
Оптимизация гладких функций только через оракул сравнений: O~(n/ε) запросов для выпуклых, O~(n/ε²) для невыпуклых задач. Совпадает с zeroth-order методами.
PDF
Positional Knowledge is All You Need
Junfeng Chen, Kailiang Wu
15 мая 2024
PiT (Position-induced Transformer) использует position-attention на основе пространственных отношений, а не входных значений. Преимущество в эффективности и сходимости для операторного обучения PDE.
PDF
Sparse Sampling is All You Need for Fast Wrong-way Cycling Detection
Jing Xu, Wentao Shi, Sheng Ren, Pan Gao, Peng Zhou, Jie Qin
12 мая 2024
WWC-Predictor — метод разреженной выборки для детекции велосипедистов, движущихся в запрещенном направлении. Использует детекцию (bounding boxes) и ориентацию, снижая время обработки на 80.88% при ошибке всего 1.475%.
PDF
HCC Is All You Need
Eric Gilbert
30 апреля 2024
Позиционирование AI Alignment как подраздела Human-Centered Computing, подчеркивая важность ориентации на человеческие ценности.
PDF
Key Patches Are All You Need
Diogo J. Araújo, M. Rita Verdelho, Alceu Bissoto, Jacinto C. Nascimento, Carlos Santiago, Catarina Barata
2 мая 2024
MIL-фреймворк для медицинской диагностики (рак кожи/груди) использует только ключевые патчи, улучшая robustness к демографическим сдвигам. Код: GitHub.
PDF
Graph is All You Need?
Zhenhan Huang, Tejaswini Pedapati, Pin-Yu Chen, Chunhen Jiang, Jianxi Gao
2 мая 2024
nasgraph — training-free NAS метод, оценивающий архитектуры через среднюю степень графа. Находит лучшую архитектуру в NAS-Bench201 за 217 CPU секунд.
PDF
Is Retain Set All You Need?
Jacopo Bonato, Marco Cotogni, Luigi Sabetta
19 апреля 2024
SCAR: (1) выравнивает feature vectors забываемых экземпляров к ближайшему неверному классу, (2) использует out-of-distribution изображения для дистилляции. Работает без retain set.
PDF
All You Need Is SAM (and Flow)
Junyu Xie, Chariq Yang, Weidi Xie, Andrew Zisserman
18 апреля 2024
Комбинация SAM с оптическим потоком: (1) SAM на входе с потоком, (2) поток как промпт для SAM. Превышает SOTA на бенчмарках. Проект: VGG.
PDF
A Good Compression Is All You Need
Muxin Zhou, Zeyuan Yin, Shitong Shao, Zhiqiang Shen
11 апреля 2024
SC-DD: сжатие датасетов через self-supervised модели (большая дисперсия BN статистик). Превышает SRe2L/MTT на CIFAR-100/ImageNet. Код: GitHub.
PDF
Not All Tokens Are What You Need
Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen
11 апреля 2024
Rho-1: Selective Language Modeling обучается только на "полезных" токенах (оценка через reference model). +30% accuracy на math задачах при 3% токенов от DeepSeekMath.
PDF
Is Exploration All You Need?
Jonathan C. Balloch, Rishav Bhagat, Geigh Zollicoffer, Ruoran Jia, Julia Kim, Mark O. Riedl
2 апреля 2024
Анализ 11 методов exploration в RL: характеристики, улучшающие transfer learning для разных "новшеств" в MDP. Рекомендации по выбору методов.
PDF
State-space Model Is All You Need
Kai Li, Guo Chen, Runxuan Yang, Xiaolin Hu
2 апреля 2024
SPMamba заменяет BLSTM в TF-GridNet на bidirectional Mamba (линейная сложность). Превышает SOTA на WSJ0-2Mix/WHAM1. Код: GitHub.
PDF
Quality Is All You Need
Yuelin Bai, Xinrun Du, Yiming Liang, Yonggang Jin, Junting Zhou, Ziqiang Liu, Feiteng Fang, Mingshan Chang, Tianyu Zheng, Xincheng Zhang, Nuo Ma, Zekun Wang, Ruibin Yuan, Hailnong Wu, Hongquan Lin, Wenhao Huang, Jiajun Zhang, Chenghua Lin, Jie Fu, Min Yang, Shiwen Ni, Ge Zhang
26 марта 2024
COIG-COIA — китайский instruction-tuning датасет с человеческой проверкой. Модели на COIG-COIA достигают SOTA. Датасет: HuggingFace.
PDF
Proprioception Is All You Need
Damien LaRocque, William Guimont-Martin, David-Alexandre Duclos, Philippe Giguère, François Pomerleau
25 марта 2024
BorealTC — датасет для классификации terrain в бореальных лесах (IMU/motor current). Mamba превосходит CNN при объединении датасетов. Код: GitHub.
PDF
One Masked Model is All You Need for Sensor Fault Detection, Isolation and Accommodation
Yiwei Fu, Weizhong Yan
24 марта 2024
Точные и надежные измерения датчиков критически важны для обеспечения безопасности и долговечности сложных инженерных систем, таких как ветряные турбины. В этой статье мы предлагаем новую систему для обнаружения, изоляции и устранения неисправностей датчиков (FDIA), используя маскированные модели и самообучение. Наш подход представляет собой общий метод моделирования временных рядов, применимый к любой нейросетевой модели, способной к последовательностному моделированию, и учитывает сложные пространственно-временные связи между датчиками. Во время обучения маскированный подход создает случайную маску, имитирующую неисправность для одного или нескольких датчиков, объединяя задачи обучения и вывода: поиск неисправных датчиков и их исправление. Мы проверяем нашу технику на публичном наборе данных и реальных данных от оффшорных ветряных турбин GE, демонстрируя её эффективность в обнаружении, диагностике и исправлении неисправностей. Маскированная модель не только упрощает процесс FDIA, но и превосходит существующие методы. Наша техника может значительно повысить точность и надежность измерений датчиков в реальном времени и может быть применена к другим типам датчиков и инженерных систем в будущем.
PDF
Attention is all you need for boosting graph convolutional neural network
Yinwei Wu
10 марта 2024
Графовые сверточные нейронные сети (GCN) обладают мощными возможностями для обработки данных в нерегулярных областях. Они могут учитывать топологическую структуру и особенности узлов, интегрируя их в итоговые представления. GCN широко применяются в рекомендательных системах, социальных сетях и структурах белковых молекул. В данной работе предлагается модуль Graph Knowledge Enhancement and Distillation Module (GKEDM), который улучшает представления узлов и повышает производительность GCN за счет сбора информации с помощью механизма многоголового внимания. Кроме того, GKEDM может служить передатчиком знаний для дистилляции, позволяя компактным студенческим моделям достигать высокой производительности. Эксперименты на различных наборах данных подтверждают эффективность GKEDM.
PDF
Reflectivity Is All You Need!: Advancing LiDAR Semantic Segmentation
Kasi Viswanath, Peng Jiang, Srikanth Saripalli
19 марта 2024
Современные методы семантической сегментации LiDAR в основном используют геометрические признаки, что ограничивает их эффективность в условиях нечетких границ, например, вне дорог. В этой работе исследуется преимущество использования калиброванной интенсивности (отражательной способности) для улучшения качества сегментации. Эксперименты с набором данных Rellis-3d показывают, что замена сырой интенсивности на отражательную способность повышает точность на 4%. Также демонстрируется потенциал этого подхода для городских сред (SemanticKITTI) и кросс-сенсорной адаптации. Дополнительно тестируется модель Segment Anything Model (SAM) с отражательной способностью, что улучшает маски сегментации для изображений LiDAR.
PDF
Multistep Inverse Is Not All You Need
Alexander Levine, Peter Stone, Amy Zhang
15 марта 2024
В реальных системах управления пространство наблюдений часто избыточно и содержит временно-коррелированный шум, в то время как управляемая динамика системы гораздо проще. В этой работе рассматривается модель Ex-BMDP, где наблюдения можно разделить на зависящее от действий латентное состояние и независимый шум. Предлагается алгоритм ACDF, который сочетает многошаговую инверсию с прямой моделью, гарантируя корректное восстановление латентного состояния. Эксперименты подтверждают эффективность ACDF в различных условиях.
PDF
OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System
Chih-Chung Hsu, Chia-Ming Lee, Chun-Hung Sun, Kuang-Ming Wu
18 марта 2024
Автоматический оптический контроль (AOI) играет ключевую роль в производстве, но сталкивается с проблемами, такими как ограниченный объем данных и чувствительность к изменениям освещения. Мы предлагаем фреймворк OANet, который использует OCR для извлечения статистических признаков из изображений в качестве второй модальности. Это позволяет улучшить семантическое представление и повысить точность обнаружения дефектов. Эксперименты показывают значительное увеличение полноты модели и её устойчивости в сложных условиях.
PDF
Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework
Kaiyan Chang, Kun Wang, Nan Yang, Ying Wang, Dantong Jin, Wenlong Zhu, Zhirong Chen, Cangyuan Li, Hao Yan, Yunhao Zhou, Zhuoliang Zhao, Yuan Cheng, Yudong Pan, Yiqi Liu, Mengdi Wang, Shengwen Liang, Yinhe Han, Huawei Li, Xiaowei Li
17 марта 2024
Предлагается автоматический фреймворк для аугментации данных, который генерирует высококачественные описания на естественном языке для Verilog и скриптов EDA. Это позволяет дообучать LLM (например, Llama2) для задач генерации и исправления Verilog, а также создания скриптов EDA. Результаты показывают, что точность генерации Verilog повышается с 58,8% до 70,6%, превосходя современные открытые модели.
PDF
Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models
Chaoqun Liu, Wenxuan Zhang, Yiran Zhao, Anh Tuan Luu, Lidong Bing
15 марта 2024
Большие языковые модели (LLM) демонстрируют многоязычные возможности, но остаются ориентированными на английский язык. В работе исследуется, как перевод влияет на выполнение многоязычных задач, включая реальные пользовательские запросы. Хотя перевод на английский может улучшить результаты для NLP-задач, для культурно-зависимых задач предпочтительнее использовать родной язык. Эксперименты показывают разнообразное поведение LLM в многоязычном контексте, что подчеркивает необходимость разработки более универсальных многоязычных моделей.
PDF
Pairwise Comparisons Are All You Need
Nicolas Chahine, Sira Ferradans, Jean Ponce
13 марта 2024
Методы слепой оценки качества изображений (BIQA) часто оказываются неэффективными в реальных сценариях из-за их универсального подхода, игнорирующего связь между содержанием изображения и его качеством. В этой статье представлен PICNIQ — фреймворк, основанный на попарных сравнениях, который оценивает относительное качество изображений, а не абсолютное. Используя психометрические алгоритмы, PICNIQ преобразует сравнения в интерпретируемые оценки качества (JOD). Эксперименты на наборе данных PIQ23 подтверждают его конкурентоспособность и широкую применимость.
PDF
CLEAR: Cross-Transformers with Pre-trained Language Model is All you need for Person Attribute Recognition and Retrieval
Doanh C. Bui, Thinh V. Le, Ba Hung Ngo, Tae Jong Choi
10 марта 2024
CLEAR — это универсальная сеть для распознавания атрибутов человека и поиска по атрибутам. Она использует кросс-трансформеры для распознавания и предобученную языковую модель для генерации псевдо-описаний атрибутов. CLEAR демонстрирует state-of-the-art результаты на пяти наборах данных, включая PETA и Market-1501.
PDF
Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems
Lingjiao Chen, Jared Quincy Davis, Boris Hanin, Peter Bailis, Ion Stoica, Matei Zaharia, James Zou
4 марта 2024
Исследуется, как количество вызовов языковых моделей (LM) влияет на производительность составных систем, таких как Vote и Filter-Vote. Обнаружено, что производительность может сначала расти, а затем снижаться из-за разнообразия сложности запросов. Предложена аналитическая модель масштабирования для оптимизации числа вызовов LM.
PDF
Cognition is All You Need — The Next Layer of AI Above Large Language Models
Nova Spivack, Sam Douglas, Michelle Crames, Tim Connors
4 марта 2024
Предлагается фреймворк Cognitive AI для реализации нейросимволического познания поверх больших языковых моделей (LLM). Cognitive AI способен выполнять сложную многошаговую интеллектуальную работу и является необходимым шагом на пути к AGI.
PDF
Greed is All You Need: An Evaluation of Tokenizer Inference Methods
Omri Uzan, Craig W. Schmidt, Chris Tanner, Yuval Pinter
2 марта 2024
Проведено контролируемое сравнение семи методов вывода токенизаторов. Показано, что жадный метод вывода работает неожиданно хорошо, а токенизатор SaGe превосходит другие по морфологическому выравниванию.
PDF
Quantum linear algebra is all you need for Transformer architectures
Naixu Guo, Zhan Yu, Matthew Choi, Aman Agrawal, Kouhei Nakaji, Alán Aspuru-Guzik, Patrick Rebentrost
26 февраля 2024
Исследуется применение квантовых вычислений для архитектур трансформеров. Предложены квантовые подпрограммы для self-attention, остаточных связей и нормализации слоёв, что открывает путь к потенциальному квантовому преимуществу.
PDF
Camouflage is all you need: Evaluating and Enhancing Language Model Robustness Against Camouflage Adversarial Attacks
Álvaro Huertas-García, Alejandro Martín, Javier Huertas-Tato, David Camacho
15 февраля 2024
Исследуется уязвимость трансформеров к камуфляжным атакам. Предложен метод adversarial training, который снижает падение производительности до 5% в задачах обнаружения оскорбительного языка и дезинформации.
PDF
Answer is All You Need: Instruction-following Text Embedding via Answering the Question
Letian Peng, Yuwei Zhang, Zilong Wang, Jayanth Srinivasa, Gaowen Liu, Zihan Wang, Jingbo Shang
14 февраля 2024
Предложен InBedder — метод встраивания текстов, который кодирует ожидаемые ответы на вопросы, заданные в инструкциях. Демонстрируется высокая интерпретируемость и способность следовать инструкциям.
PDF
SMC Is All You Need: Parallel Strong Scaling
Xinzhu Liang, Joseph M. Lukens, Sanjaya Lohani, Brian T. Kirby, Thomas A. Searles, Kody J. H. Law
8 февраля 2024
Разработан параллельный метод SMC (pSMC), обеспечивающий ограниченную временную сложность при увеличении числа процессов. Теоретически pSMC достигает точности MSE=O(1/NP), что подтверждается экспериментами.
PDF
Randomness Is All You Need: Semantic Traversal of Problem-Solution Spaces with Large Language Models
Thomas Sandholm, Sayandev Mukherjee, Bernardo A. Huberman
8 февраля 2024
Предложен метод семантического обхода пространств проблем и решений с использованием LLM. Реализован Slack-бот для генерации разнообразных решений и уточнения исходных проблем.
PDF
More Agents Is All You Need
Junyou Li, Qin Zhang, Yangbin Yu, Qiang Fu, Deheng Ye
3 февраля 2024
Показано, что производительность LLM масштабируется с числом агентов при использовании метода выборки и голосования (Agent Forest). Эксперименты подтверждают универсальность этого подхода.
PDF
Is Two-shot All You Need? A Label-efficient Approach for Video Segmentation in Breast Ultrasound
Jiajun Zeng, Dong Ni, Ruobing Huang
7 февраля 2024
Предложен метод двухпримерного обучения для сегментации видео УЗИ молочной железы, достигающий сопоставимой с полным аннотированием точности при использовании всего 1.9% меток.
PDF
Standard Gaussian Process is All You Need for High-Dimensional Bayesian Optimization
Zhitong Xu, Haitao Wang, Jeff M Phillips, Shandian Zhe
5 февраля 2024
Опровергнут миф о неэффективности стандартных гауссовских процессов (GP) в высоких размерностях. Показано, что ядра Matern и правильная инициализация позволяют GP превзойти специализированные методы.
PDF
Synthesizer: Synthetic Data is All You Need for Few-Shot Dialog State Tracking
Atharva Kulkarni, Bo-Hsiang Tseng, Joel Ruben Antony Moniz, Dhivya Piraviperumal, Hong Yu, Shruti Bhargava
3 февраля 2024
Предложен фреймворк для генерации синтетических диалогов с аннотациями DST. Немногопримерное обучение на таких данных восстанавливает 98% производительности по сравнению с человеческими аннотациями.
PDF
Accelerating Look-ahead in Bayesian Optimization: Multilevel Monte Carlo is All you Need
Shangda Yang, Vitaly Zankin, Maximilian Balandat, Stefan Scherer, Kevin Carlberg, Neil Walton, Kody J. H. Law
3 февраля 2024
Использование многоуровневого метода Монте-Карло (MLMC) для улучшения производительности байесовской оптимизации (BO) с многошаговым прогнозированием. MLMC позволяет достичь канонической скорости сходимости без ограничений на размерность или гладкость данных. Метод проверен на нескольких тестовых примерах и показал значительные преимущества.
PDF
A Single Simple Patch is All You Need for AI-generated Image Detection
Jiaxuan Chen, Jieteng Yao, Li Niu
1 февраля 2024
Предложен метод обнаружения AI-сгенерированных изображений, основанный на анализе шумовых паттернов в простых участках изображения. Включение модулей улучшения и восприятия позволяет достичь state-of-the-art результатов на публичных бенчмарках, даже для изображений от неизвестных генераторов.
PDF
Compositional Generative Modeling: A Single Model is Not All You Need
Yilun Du, Leslie Kaelbling
1 февраля 2024
Аргументируется переход от больших монолитных генеративных моделей к системам, составленным из меньших компонентов. Такой подход улучшает обобщаемость и позволяет создавать новые генеративные модели для задач, не встречавшихся при обучении.
PDF
A Single Graph Convolution Is All You Need: Efficient Grayscale Image Classification
Jacob Fein-Ashley, Sachini Wickramasinghe, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna
1 февраля 2024
Предложен метод классификации полутоновых изображений с использованием векторного представления и одной графовой свертки. Реализация на FPGA демонстрирует до 16-кратное снижение задержки по сравнению с CNN при сохранении высокой точности для задач SAR ATR и медицинской визуализации.
PDF
Single Word Change is All You Need: Designing Attacks and Defenses for Text Classifiers
Lei Xu, Sarah Alnegheimish, Laure Berti-Equille, Alfredo Cuesta-Infante, Kalyan Veeramachaneni
30 января 2024
Исследована уязвимость классификаторов к атакам с изменением одного слова. Предложены метрика ρ для оценки устойчивости, атака SP-Attack и защита SP-Defense, улучшающая ρ на 14.6% для BERT.
PDF
Byte Pair Encoding Is All You Need For Automatic Bengali Speech Recognition
Ahnaf Mozib Samin
27 января 2024
Оптимизация числа BPE-токенов для бенгальского языка снижает WER с 66.44% до 63.80% на out-of-distribution данных. Эмпирически установлено, что 500-1000 токенов обеспечивают баланс между производительностью и переобучением.
PDF
Density Adaptive Attention is All You Need: Robust Parameter-Efficient Fine-Tuning Across Multiple Modalities
Georgios Ioannides, Aman Chadha, Aaron Elkins
20 января 2024
Предложен механизм DAAM для динамической перекалибровки значимости признаков в речи, тексте и изображениях. Превышает state-of-the-art методы на 20% (абс.) в точности, включая метрику Importance Factor для интерпретируемости.
PDF
Metacognition is all you need? Using Introspection in Generative Agents to Improve Goal-directed Behavior
Jason Toy, Josh MacAdam, Phil Tabor
9 января 2024
Модуль метакогниции для агентов на основе LLM, эмулирующий Систему 1 и Систему 2 мышления, улучшает адаптацию в динамичных сценариях (например, зомби-апокалипсис). Агенты демонстрируют прогрессивное улучшение стратегий.
PDF
COCO is "ALL" You Need for Visual Instruction Fine-tuning
Xiaotian Han, Yiqi Wang, Bohan Zhai, Quanzeng You, Hongxia Yang
16 января 2024
Предложен новый набор данных для тонкой настройки мультимодальных LLM (MLLM) на основе COCO, содержащий разнообразные инструкции. Показано, что использование этого набора улучшает качество моделей в диалогах и открытых оценках по сравнению с существующими аналогами.
PDF
Arabic Text Diacritization In The Age Of Transfer Learning: Token Classification Is All You Need
Abderrahman Skiredj, Ismail Berrada
9 января 2024
Метод PTCAD для автоматической диакритизации арабского текста, основанный на классификации токенов, снижает WER на 20% и превосходит GPT-4. Включает предварительную тонкую настройку и этап финальной доработки.
PDF
Grimoire is All You Need for Enhancing Large Language Models
Ding Chen, Shichao Song, Qingchen Yu, Zhiyu Li, Wenjin Wang, Feiyu Xiong, Bo Tang
6 января 2024
Метод SLEICL позволяет слабым языковым моделям перенимать навыки у сильных через обобщение примеров. Некоторые слабые модели с SLEICL превосходят GPT4-1106-preview в нулевом режиме.
PDF
Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
Xiaoding Lu, Zongyi Liu, Adian Liusie, Vyas Raina, Vineet Mudupalli, Yuwen Zhang, William Beauchamp
4 января 2024
Комбинация из трёх небольших моделей (6B/13B параметров) может соперничать с ChatGPT (175B+ параметров) по качеству ответов, что подтверждено A/B-тестированием на платформе Chai.
PDF
Exposure Bracketing Is All You Need For A High-Quality Image
Zhilu Zhang, Shuohao Zhang, Renlong Wu, Zifei Yan, Wangmeng Zuo
1 января 2024
Предложен метод TMRNet для объединения задач шумоподавления, увеличения динамического диапазона и разрешения с использованием мультиэкспозиционных снимков. Включает самообучаемую адаптацию к реальным данным.
PDF
Large Language Models aren't all that you need
Kiran Voderhobli Holla, Chaithanya Kumar, Aryan Singh
1 января 2024
Сравнение CRF и LLM для задачи Multilingual Complex NER. Доказано, что комбинация убывающего вспомогательного loss, blending токенов и кастомных голов улучшает Macro-F1 до 0.84.
PDF