Предлагаю вашему вниманию полный перевод статьи об алгоритме нейронной сети на основе теоремы Колмогорова Арнольда, опубликованной исследователями из Massachusetts Institute of Technology, California Institute of Technology, Northeastern University и The NSF Institute for Artificial Intelligence and Fundamental Interactions.
В настоящее время в на просторах интернета есть лишь посты на основе данной статьи с интригующими названиями типа: «Новый убийца нейросетей? Сеть Колмогорова Арнольда (KANs)» или «Исследователи разработали принципиально новую архитектуру нейросетей, которая работает лучше персептрона» и т. п. Для лучшего понимания это темы обратимся к первоисточнику ‑статье, опубликованной не так давно — в апреле 2024 года.
KAN: Kolmogorov–Arnold Networks
Ziming Liu,,Yixuan Wang, Sachin Vaidya, Fabian Ruehle, James Halverson, Marin Soljačić, Thomas Y. Hou,Max Tegmark
Massachusetts Institute of Technology
California Institute of Technology
Северо-Восточный университет
The NSF Institute for Artificial Intelligence and Fundamental Interactions
Вдохновленные теоремой Колмогорова-Арнольда, мы предлагаем сети Колмогорова-Арнольда (KAN) в качестве перспективных альтернатив многослойным персептронам (MLP). В то время как MLP имеют фиксированные функции активации на узлах («нейроны»), KAN имеют обучаемые функции активации на ребрах («веса»). KAN вообще не имеют линейных весов — каждый параметр веса заменен одномерной функцией, параметризованной как сплайн. Мы показываем, что это, казалось бы, простое изменение позволяет KAN превосходить MLP с точки зрения точности и интерпретируемости в задачах AI+Science небольшого масштаба. Что касается точности, меньшие KAN могут достигать сопоставимой или лучшей точности, чем большие MLP в задачах подгонки функций. Теоретически и эмпирически KAN обладают более быстрыми законами нейронного масштабирования, чем MLP. Что касается интерпретируемости, KAN можно наглядно визуализировать, и они могут легко взаимодействовать с пользователями. На двух примерах из математики и физики показано, что KAN являются полезными «коллегами», помогающими ученым (повторно) открывать математические и физические законы. Подводя итог, можно сказать, что KAN являются многообещающими альтернативами MLP, открывая возможности для дальнейшего улучшения современных моделей глубокого обучения, которые в значительной степени полагаются на MLP.
Многослойные персептроны (MLP) [1, 2, 3], также известные как полносвязанные нейронные сети прямого распространения, являются основополагающими строительными блоками современных моделей глубокого обучения. Важность MLP невозможно переоценить, поскольку они являются моделями по умолчанию в машинном обучении для аппроксимации нелинейных функций из-за их выразительной силы, гарантированной универсальной теоремой аппроксимации [3]. Однако являются ли MLP лучшими нелинейными регрессорами, которые мы можем построить? Несмотря на распространенное использование MLP, у них есть существенные недостатки. Например, в трансформерах [4] MLP потребляют почти все невстраиваемые параметры и, как правило, менее интерпретируемы (по сравнению со слоями внимания) без инструментов пост-анализа [5].
Мы предлагаем многообещающую альтернативу многослойным перцепторам, называемую сетями Колмогорова-Арнольда (KAN).
В то время как MLP вдохновлены теоремой универсальной аппроксимации, KAN вдохновлены теоремой Колмогорова-Арнольда о представлении (или теоремой о суперпозиции) [6, 7, 8]. Как и MLP, KAN имеют полностью связанные структуры. Однако, в то время как MLP размещают фиксированные функции активации на узлах («нейронах»), KAN размещают обучаемые функции активации на ребрах («весах»), как показано на рисунке 0.1. В результате KAN вообще не имеют линейных весовых матриц: вместо этого каждый весовой параметр заменяется обучаемой одномерной функцией, параметризованной как сплайн. Узлы KAN просто суммируют входящие сигналы без применения каких-либо нелинейностей. Можно было бы беспокоиться, что KAN безнадежно дороги, поскольку каждый весовой параметр MLP становится сплайновой функцией KAN. К счастью, KAN обычно допускают гораздо меньшие графы вычислений, чем MLP.
Неудивительно, что возможность использования теоремы Колмогорова-Арнольда о представлении (или теорема о суперпозиции) для построения нейронных сетей изучалась [9, 10, 11, 12, 13, 14, 15, 16]. Однако большая часть работы застряла на исходном представлении глубиной 2 и шириной , и у многих не было возможности использовать более современные методы (например, обратное распространение) для обучения сетей. В [12] было исследовано представление глубиной 2 и шириной с разрушением проклятия размерности, наблюдаемым как эмпирически, так и с помощью теории приближения, заданной композиционными структурами функции. Наш вклад заключается в обобщении исходного представления Колмогорова-Арнольда на произвольные ширины и глубины, оживлении и контекстуализации его в современном мире глубокого обучения, а также в использовании обширных эмпирических экспериментов для выявления его потенциала для AI+Science из-за его точности и интерпретируемости.
Несмотря на свою элегантную математическую интерпретацию, KAN — это не более чем комбинации сплайнов и MLP, использующие их сильные стороны и избегающие их слабых сторон. Сплайны точны для низкоразмерных функций, их легко настраивать локально и они способны переключаться между различными разрешениями. Однако сплайны имеют серьезную проблему проклятия размерности (curseofdimensionality - COD) из-за их неспособности использовать композиционные структуры. MLP, с другой стороны, меньше страдают от COD благодаря их обучению признакам, но менее точны, чем сплайны в низких размерностях, из-за их неспособности оптимизировать одномерные функции. Связь между MLP, использующими ReLU-k в качестве функций активации, и сплайнами была установлена в [17, 18]. Чтобы точно изучить функцию, модель должна не только изучить композиционную структуру (внешние степени свободы), но и хорошо аппроксимировать одномерные функции (внутренние степени свободы). KAN являются такими моделями, поскольку они имеют MLP снаружи и сплайны внутри. В результате KAN могут не только изучать признаки (благодаря их внешнему сходству с MLP), но и оптимизировать эти изученные признаки с большой точностью (благодаря их внутреннему сходству со сплайнами). Например, если задана функция высокой размерности
сплайны не будут работать для больших N из-за COD; MLP потенциально могут изучить обобщенную аддитивную структуру, но они очень неэффективны для аппроксимации экспоненциальных и синусоидальных функций, скажем, с помощью активаций ReLU. Напротив, KAN могут изучить как композиционную структуру, так и одномерные функции довольно хорошо, поэтому превосходят MLP с большим отрывом (см. рисунок 3.1).
В этой статье мы будем использовать обширные численные эксперименты, чтобы показать, что KAN могут привести к улучшению точности и интерпретируемости по сравнению с MLP, по крайней мере, в мелкомасштабных задачах AI+Science. Организация статьи проиллюстрирована на рисунке 2.1. В разделе 2 мы представляем архитектуру KAN и ее математическую основу, вводим методы упрощения сети, чтобы сделать KAN интерпретируемыми, и вводим метод расширения сетки, чтобы сделать KAN более точными. В разделе 3 мы показываем, что KAN точнее MLP для подгонки данных: KAN могут победить проклятие размерности, когда в данных есть композиционная структура, достигая лучших законов масштабирования, чем MLP. Мы также демонстрируем потенциал KAN в решении PDE (решение уравнений в частных производных. см. 3.4. Прим пер.) на простом примере уравнения Пуассона. В разделе 4 мы показываем, что KAN интерпретируемы и могут использоваться для научных открытий. Мы используем два примера из математики (теория узлов) и физики (локализация Андерсона), чтобы продемонстрировать, что KAN могут быть полезными «коллегами» для ученых в (повторном) открытии математических и физических законов. Раздел 5 суммирует связанные работы. В разделе 6 мы завершаем обсуждением общих последствий и будущих направлений. Коды доступны по адресу https://github.com/KindXiaoming/pykan и также могут быть установлены с помощью pip install pykan.
Многослойные персептроны (MLP) вдохновлены теоремой универсальной аппроксимации. Вместо этого мы сосредоточимся на теореме представления Колмогорова-Арнольда, которая может быть реализована новым типом нейронной сети, называемой сетями Колмогорова-Арнольда (KAN). Мы рассматриваем теорему Колмогорова-Арнольда в разделе 2.1, чтобы вдохновиться на разработку сетей Колмогорова-Арнольда в разделе 2.2. В разделе 2.3 мы даем теоретические гарантии выразительной силы KAN и их законов нейронного масштабирования, связывая их с существующими теориями аппроксимации и обобщения в литературе. В разделе 2.4 мы предлагаем метод расширения сетки, чтобы сделать KAN все более точными. В разделе 2.5 мы предлагаем методы упрощения, чтобы сделать KAN интерпретируемыми.
2.1 Теорема о представлении Колмогорова-Арнольда
Владимир Арнольд и Андрей Колмогоров установили, что если f — многомерная непрерывная функция на ограниченной области, то f можно записать как конечную композицию непрерывных функций
одной переменной и бинарной операции сложения. Более конкретно, для гладкой
где и . В некотором смысле они показали, что единственной истинной многомерной функцией является сложение, поскольку любая другая функция может быть записана с использованием одномерных функций и суммы. Можно было бы наивно считать это отличной новостью для машинного обучения: изучение многомерной функции сводится к изучению полиномиального числа одномерных (1D) функций. Однако эти одномерные функции могут быть негладкими и даже фрактальными, поэтому они могут быть неизучаемыми на практике [19, 20]. Из-за этого патологического поведения теорема Колмогорова-Арнольда о представлении была фактически приговорена к смерти в машинном обучении, считаясь теоретически обоснованной, но практически бесполезной [19, 20].
Однако мы более оптимистичны относительно полезности теоремы Колмогорова-Арнольда для машинного обучения. Прежде всего, нам не нужно придерживаться исходного уравнения (2.1), которое имеет только двухслойные нелинейности и небольшое количество членов в скрытом слое: мы обобщим сеть до произвольной ширины и глубины. Во-вторых, большинство функций в науке и повседневной жизни часто являются гладкими и имеют разреженные композиционные структуры, что потенциально способствует гладким представлениям Колмогорова-Арнольда. Философия здесь близка к мышлению физиков, которых часто больше заботят типичные случаи, чем наихудшие. В конце концов, наш физический мир и задачи машинного обучения должны иметь структуры, чтобы сделать физику и машинное обучение полезными или вообще обобщаемыми [21].
2.2 Архитектура KAN
Предположим, у нас есть контролируемая задача обучения (обучение с учителем – прим пер.), состоящая из пар вход-выход , где мы хотим найти , такую, что для всех точек данных. Уравнение (2.1) подразумевает, что мы достигли цели, если мы можем найти соответствующие одномерные функции и . Это вдохновляет нас на разработку нейронной сети, которая явно параметризует уравнение (2.1). Поскольку все функции, которые должны быть изучены, являются одномерными функциями, мы можем параметризовать каждую одномерную функцию как B-сплайновую кривую с обучаемыми коэффициентами локальных базисных функций B-сплайна (см. рисунок 2.2 справа). Теперь у нас есть прототип KAN, граф вычислений которого точно задан уравнением. (2.1) и проиллюстрирован на рисунке 0.1 (б) (с входной размерностью , представляя собой двухслойную нейронную сеть с функциями активации, размещенными на ребрах вместо узлов (по узлам выполняется простое суммирование), и с шириной в среднем слое.
Как уже упоминалось, такая сеть, как известно, слишком проста, чтобы аппроксимировать любую функцию произвольно хорошо на практике с помощью гладких сплайнов! Поэтому мы обобщаем нашу KAN, чтобы она была шире и глубже. Не сразу понятно, как сделать KAN глубже, поскольку представления Колмогорова-Арнольда соответствуют двухслойным KAN. Насколько нам известно, пока не существует «обобщенной» версии теоремы, которая соответствовала бы более глубоким KAN.
Прорыв происходит, когда мы замечаем аналогию между MLP и KAN. В MLP, как только мы определяем слой (состоящий из линейного преобразования и нелинейностей), мы можем накладывать больше слоев, чтобы сделать сеть глубже. Чтобы построить глубокие KAN, мы должны сначала ответить на вопрос: «Что такое слой KAN?» Оказывается, слой KAN с входами и выходами можно определить как матрицу 1D функций,
где функции имеют обучаемые параметры, как подробно описано ниже.
В теореме Колмогова-Арнольда внутренние функции образуют слой KAN с и , а внешние функции образуют слой KAN с и . Таким образом, представления Колмогорова-Арнольда в уравнении (2.1) являются просто композициями двух слоев KAN. Теперь становится ясно, что значит иметь более глубокие представления Колмогорова-Арнольда: просто сложить больше слоев KAN!
Введём некоторые обозначения. Этот абзац будет немного техническим, но читатели могут обратиться к рисунку 2.2 (слева) для конкретного примера и интуитивного понимания. Форма KAN представлена целочисленным массивом,
де — количество узлов в -м слое вычислительного графа.
Обозначим -й нейрон в -м слое как , а значение активации -нейрона как . Между слоем и слоем имеется функций активации: функция активации, которая соединяет и , обозначается как
Предварительная активация это просто ; постактивация обозначается как . Значение активации нейрона — это просто сумма всех входящих постактиваций:
В матричной форме это выглядит так:
где Φl — функциональная матрица, соответствующая -му слою KAN. Общая сеть KAN представляет собой композицию из слоев: при заданном входном векторе выход KAN равен
Мы также можем переписать приведенное выше уравнение, чтобы сделать его более аналогичным уравнению (2.1), предположив, что выходная размерность , и определив :
что довольно громоздко. Напротив, наша абстракция слоев KAN и их визуализации более чистые и интуитивные. Исходное представление Колмогорова-Арнольда (2.1) соответствует 2-слойной KAN с формой . Обратите внимание, что все операции дифференцируемы, поэтому мы можем обучать KAN с обратным распространением. Для сравнения, MLP можно записать как чередование аффинных преобразований W и нелинейностей σ:
Очевидно, что MLP обрабатывают линейные преобразования и нелинейности отдельно как W и σ, тогда как KAN обрабатывают их все вместе в . На рисунке 0.1 (c) и (d) мы визуализируем трехслойный MLP и трехслойный KAN, чтобы прояснить их различия.
Подробности реализации. Хотя уравнение слоя KAN (2.5) выглядит чрезвычайно простым, сделать его хорошо оптимизируемым — нетривиальная задача. Ключевые приемы:
(1) Остаточные функции активации (Residual activation functions). Мы включаем базисную функцию (аналогичную остаточным связям) так, что функция активации является суммой базисной функции и сплайн-функции:
Мы устанавливаем
в большинстве случаев параметризуется как линейная комбинация B-сплайнов, так что
являются обучаемыми (см. рисунок 2.2 для иллюстрации). В принципе и избыточны, поскольку их можно поглотить в и . Однако мы все равно включаем эти факторы (которые по умолчанию обучаемы), чтобы лучше контролировать общую величину функции активации.
(2) Инициализация масштабов. Каждая функция активации инициализируется так, чтобы иметь и *. инициализируется в соответствии с инициализацией Ксавье (Xavier), которая использовалась для инициализации линейных слоев в MLP.
*Это делается путем построения коэффициентов B-сплайна с малым σ, обычно мы устанавливаем
(3) Обновление сеток сплайнов. Мы обновляем каждую сетку на лету в соответствии с ее входными активациями, чтобы решить проблему, когда сплайны определяются в ограниченных областях, но значения активации могут выходить за пределы фиксированной области во время обучения **.
** Другие возможности: (a) сетка обучаема с помощью градиентного спуска, например, [22]; (b) используйте нормализацию, чтобы входной диапазон был фиксированным. Сначала мы попробовали (b), но его производительность уступает нашему текущему подходу.
Количество параметров. Для простоты предположим имеется сеть
(1) с глубиной
(2) со слоями одинаковой ширины ,
(3) с каждым сплайном порядка (обычно ) на G интервалах (для точек сетки).
Тогда в общей сложности имеется параметров. В отличие от этого, MLP с глубиной и шириной требует только параметров, что, по-видимому, более эффективно, чем может быть. К счастью, для KAN обычно требуется гораздо меньшее число , чем для MLP, что не только экономит параметры, но и обеспечивает лучшее обобщение (см., например, рис. 3.1 и 3.3) и облегчает интерпретацию. Отметим, что для одномерных задач мы можем взять , и сеть KAN в нашей реализации является ничем иным, как сплайновой аппроксимацией. Для более высоких измерений мы характеризуем обобщающее поведение KAN с помощью приведенной ниже теоремы.
2.3 Способности KAN к аппроксимации и законы масштабирования
Напомним, что в уравнении (2.1) двухслойное представление ширины может быть негладким. Однако более глубокие представления могут обеспечить преимущества более плавных активаций. Например, функция с 4 переменными
может быть плавно представлена [4, 2, 1, 1] KAN, которая является 3-слойной, но может не допускать 2-слойной KAN с плавными активациями. Для облегчения аппроксимационного анализа мы по-прежнему предполагаем гладкость активаций, но позволяем представлениям быть произвольно широкими и глубокими, как в уравнении (2.7). Чтобы подчеркнуть зависимость нашей KAN от конечного набора точек сетки, мы используем и ниже для замены обозначений и , используемых в уравнении (2.5) и (2.6).
Теорема 2.1 (Теория приближений, КАТ). Пусть . Предположим, что функция допускает представление
как в уравнении (2.7), где каждый из является - раз непрерывно дифференцируемым. Тогда существует константа C, зависящая от f и ее представления, такая, что мы имеем следующую границу приближения в терминах размера сетки G: существуют B-сплайн-функции k-го порядка такие, что для любого мы имеем границу
Здесь мы принимаем обозначение Cm-нормы, измеряющей величину производных до порядка m:
Доказательство. Согласно классической теории одномерных B-сплайнов [23] и тому факту, что как непрерывные функции могут быть равномерно ограничены на ограниченной области, мы знаем, что существуют конечно-сеточные B-сплайновые функции такие, что для любого 0 ≤ m ≤ k,
с константой , не зависящей от . Мы фиксируем эти B-сплайновые аппроксимации. Следовательно, мы имеем, что остаток , определенный через
удовлетворяет
с константой, не зависящей от . Наконец, обратите внимание:
мы знаем, что (2.15) выполняется.
Мы знаем, что асимптотически, при условии, что предположение в теореме 2.1 выполняется, KAN с конечным размером сетки могут хорошо аппроксимировать функцию с остаточной скоростью, независимой от размерности, тем самым преодолевая проклятие размерности! Это естественно, поскольку мы используем сплайны только для аппроксимации одномерных функций. В частности, при мы восстанавливаем точность в норме , что, в свою очередь, обеспечивает границу RMSE на конечной области, что дает показатель масштабирования . Конечно, константа зависит от представления; следовательно, она будет зависеть от размерности. Мы оставим обсуждение зависимости константы от размерности в качестве будущей работы.
Заметим, что хотя теорема Колмогорова-Арнольда (2.1) соответствует представлению KAN с формой , ее функции не обязательно являются гладкими. С другой стороны, если мы можем идентифицировать гладкое представление (возможно, за счет дополнительных слоев или делая KAN шире, чем предписывает теория), то теорема 2.1 указывает, что мы можем победить проклятие размерности (COD). Это не должно вызывать удивления, поскольку мы можем по своей сути узнать структуру функции и сделать наше конечно-выборочное приближение KAN интерпретируемым.
Законы нейронного масштабирования: сравнение с другими теориями. Законы нейронного масштабирования — это явление, при котором потери теста уменьшаются с увеличением числа параметров модели, т. е. , где — это RMSE теста, — это количество параметров, а — показатель масштабирования. Большее значение обещает большее улучшение за счет простого масштабирования модели. Для предсказания были предложены различные теории. Sharma & Kaplan [24] предполагают, что возникает из подгонки данных на входном многообразии внутренней размерности . Если класс функций модели представляет собой кусочно-полиномиальные функции порядка , то стандартная теория аппроксимации подразумевает из теории аппроксимации. Эта граница страдает от проклятия размерности, поэтому исследователи искали другие границы, независимые от , используя композиционные структуры. В частности, Michaud и др. [25] рассмотрели вычислительные графы, которые включают только унарные (например, квадрат, синус, exp) и бинарные (+ и ×) операции, найдя , где - максимальная арность. Poggio и др. [19] использовали идею композиционной разреженности и доказали, что для заданного класса функций (функции, производные которых непрерывны до m-го порядка) требуется параметров для достижения ошибки ϵ, что эквивалентно . Наш подход, который предполагает существование гладких представлений Колмогорова-Арнольда, раскладывает высокоразмерную функцию на несколько одномерных функций, давая α = k+1 (где — кусочно-полиномиальный порядок сплайнов). Мы выбираем кубических сплайна, так что , что является наибольшим и лучшим показателем масштабирования по сравнению с другими работами. Мы покажем в разделе 3.1, что эта граница на самом деле может быть достигнута эмпирически с помощью KAN, в то время как в предыдущей работе [25] сообщалось, что MLP имеют проблемы даже с насыщением более медленных границ (например, ) и быстрым выходом на плато. Конечно, мы можем увеличить , чтобы соответствовать гладкости функций, но слишком большое может быть слишком осцилляторным, что приведет к проблемам оптимизации.
Сравнение KAT и UAT. Мощность полносвязанных нейронных сетей подтверждается универсальной теоремой аппроксимации (UAT), которая гласит, что при заданной функции и допуске погрешности двухслойная сеть с нейронами может аппроксимировать функцию с точностью до погрешности . Однако UAT не гарантирует никаких ограничений на то, как масштабируется с . Действительно, она страдает от COD, и было показано, что растет экспоненциально с d в некоторых случаях [21].
Разница между KAT и UAT является следствием того, что KAN используют преимущество изначально низкоразмерного представления функции, в то время как MLP этого не делают. В KAT мы подчеркиваем количественную оценку ошибки аппроксимации в композиционном пространстве. В литературе границы ошибки обобщения, учитывающие конечные выборки обучающих данных, для аналогичного пространства изучались для задач регрессии; см. [26, 27], а также специально для MLP с активациями ReLU [28]. С другой стороны, для общих функциональных пространств, таких как пространства Соболева или Бесова (Sobolev or Besov), нелинейная теория -widths [29, 30, 31] указывает, что мы никогда не сможем победить проклятие размерности, в то время как MLP с активациями ReLU могут достичь высокой скорости [32, 33, 34]. Этот факт снова мотивирует нас рассматривать функции композиционной структуры, как гораздо «более хорошие» функции, с которыми мы сталкиваемся на практике и в науке, чтобы преодолеть COD. По сравнению с MLP, мы можем использовать меньшую архитектуру на практике, поскольку мы изучаем общие нелинейные функции активации; см. также [28], где глубина ReLU MLP должна достигать по крайней мере , чтобы иметь желаемую скорость, где — число выборок. Действительно, мы покажем, что KAN хорошо согласованы с символическими функциями, в то время как MLP — нет.
2.4 Для точности: Расширение сетки
В принципе, сплайн можно сделать произвольно точным для целевой функции, поскольку сетку можно сделать произвольно мелкозернистой. Эта хорошая особенность унаследована KAN. Напротив, MLP не имеют понятия «мелкозернистости». По общему признанию, увеличение ширины и глубины MLP может привести к улучшению производительности («законы нейронного масштабирования»). Однако эти законы нейронного масштабирования медленные (обсуждались в последнем разделе). Их также дорого получить, поскольку модели разных размеров обучаются независимо. Напротив, для KAN можно сначала обучить KAN с меньшим количеством параметров, а затем расширить ее до KAN с большим количеством параметров, просто сделав ее сетки сплайнов более мелкими, без необходимости переобучения более крупной модели с нуля.
Далее мы опишем, как выполнить расширение сетки (показано на рисунке 2.2 справа), что по сути является подгонкой нового мелкозернистого сплайна к старому крупнозернистому сплайну. Предположим, что мы хотим аппроксимировать 1D-функцию в ограниченной области с помощью B-сплайнов порядка . Крупнозернистая сетка с интервалами имеет точки сетки в {}, что дополняется до
{}. Существует базисных функций B-сплайна, причем -й B-сплайн не равен нулю только на . Тогда на грубой сетке выражается через линейную комбинацию этих базисных функций B-сплайнов
.
При наличии более мелкой сетки с интервалами , на мелкой сетке соответственно
.
Параметры могут быть инициализированы из параметров путем минимизации расстояния между и (по некоторому распределению ):
который может быть реализован с помощью алгоритма наименьших квадратов. Мы выполняем расширение сетки для всех сплайнов в KAN независимо.
Игрушечный пример: ступенчатые кривые потерь. Мы используем игрушечный пример , чтобы продемонстрировать эффект расширения сетки. На рисунке 2.3 (слева вверху) мы показываем RMSE обучения и тестирования для KAN [2,5,1]. Количество точек сетки начинается с 3, увеличивается до большего значения каждые 200 шагов LBFGS, заканчивая 1000 точками сетки. Очевидно, что каждый раз, когда увеличивается тонкая зернистость, потери обучения падают быстрее, чем раньше (за исключением самой тонкой сетки с 1000 точками, где оптимизация перестает работать, вероятно, из-за плохих ландшафтов потерь). Однако потери теста сначала снижаются, а затем растут, отображая U-образную форму из-за компромисса смещения-дисперсии (недообучение против переобучения). Мы предполагаем, что оптимальные потери теста достигаются на пороге интерполяции, когда количество параметров соответствует количеству точек данных. Поскольку количество наблюдений в наших обучающих выборках равно 1000, а общее количество параметров KAN[2,5,1] равно 15 ( — число интервалов сетки), мы ожидаем, что порог интерполяции составит , что примерно соответствует нашему экспериментально наблюдаемому значению .
Маленькие KAN лучше обобщают Это ли лучшая производительность теста, которую мы можем достичь? Обратите внимание, что синтетическая задача может быть представлена точно как KAN[2,1,1], поэтому мы обучаем KAN [2,1,1] и представляем динамику обучения на рисунке 2.3 вверху справа. Интересно, что он может достигать даже меньших потерь теста, чем KAN [2,5,1], с более четкими лестничными структурами, а порог интерполяции задерживается до большего размера сетки в результате меньшего количества параметров. Это подчеркивает тонкость выбора архитектур KAN. Если мы не знаем структуру задачи, как мы можем определить минимальную форму KAN? В разделе 2.5 мы предложим метод автоматического обнаружения такой минимальной архитектуры KAN с помощью регуляризации и обрезки.
Законы масштабирования: сравнение с теорией. Нас также интересует, как уменьшаются потери теста по мере увеличения числа параметров сетки. На рисунке 2.3 (внизу слева) [2,1,1] KAN масштабируется примерно как . Однако, согласно теореме 2.1, мы ожидали бы . Мы обнаружили, что ошибки по образцам неравномерны. Вероятно, это связано с граничными эффектами [25]. Фактически, есть несколько образцов, которые имеют значительно бо́льшие ошибки, чем другие, что замедляет общее масштабирование. Если мы вычислим квадратный корень из медианы (не среднего) квадратов потерь, мы получим масштабирование ближе к . Несмотря на эту неоптимальность (вероятно, из-за оптимизации), KAN все еще имеют гораздо лучшие законы масштабирования, чем MLP, для подгонки данных (рисунок 3.1) и решения PDE (рисунок 3.3). Кроме того, время обучения выгодно масштабируется с числом точек сетки , как показано на рисунке 2.3 внизу справа*.
* При обучение значительно замедляется, что характерно для использования оптимизатора LBFGS с поиском по строке. Мы предполагаем, что ситуация с потерями становится плохой при , поэтому проводим поиск по строке, пытаясь найти оптимальный размер шага в максимальных итерациях без преждевременной остановки.
Внешние и внутренние степени свободы. Новая концепция, присущая KAN, — это различие между внешними и внутренними степенями свободы (параметрами). Вычислительный график того, как соединены узлы, представляет внешние степени свободы ("dofs"), в то время как точки сетки внутри функции активации являются внутренними степенями свободы. KAN выигрывают от того, что у них есть как внешние, так и внутренние степени свободы. Внешние степени свободы (которые также есть у MLP, но нет у сплайнов) отвечают за изучение композиционных структур нескольких переменных. Внутренние степени свободы (которые также есть у сплайнов, но нет у MLP) отвечают за изучение одномерных функций.
2.5 Для удобства интерпретации: Упрощение KAN и придание им интерактивности
Один из недостатков последнего подраздела заключается в том, что мы не знаем, как выбрать форму KAN, которая наилучшим образом соответствует структуре набора данных. Например, если мы знаем, что набор данных генерируется с помощью символической формулы , то мы знаем, что [2,1,1] KAN может выразить эту функцию. Однако на практике мы не знаем информацию априори, поэтому было бы неплохо иметь подходы для автоматического определения этой формы. Идея состоит в том, чтобы начать с достаточно большой KAN и обучить ее с помощью регуляризации разреженности с последующей обрезкой. Мы покажем, что эти обрезанные KAN гораздо более интерпретируемы, чем необрезанные. Чтобы сделать KAN максимально интерпретируемыми, мы предлагаем несколько методов упрощения в разделе 2.5.1 и пример того, как пользователи могут взаимодействовать с KAN, чтобы сделать их более интерпретируемыми в разделе 2.5.2.
2.5.1 Методы упрощения
1. Разрежение (Sparsification). Для MLP используется регуляризация L1 линейных весов для поддержки разрежения. KAN могут адаптировать эту идею высокого уровня, но для этого нужны две модификации:
(1) В KAN нет линейного «веса». Линейные веса заменяются обучаемыми функциями активации, поэтому мы должны определить L1 norm этих функций активации.
(2) Мы обнаружили, что L1 недостаточно для разрежения KAN; вместо этого необходима дополнительная регуляризация энтропии (более подробную информацию см. в Приложении C).
Мы определяем норму L1 функции активации как ее среднюю величину по входным данным, т. е.
Тогда для слоя KAN с количеством входов и количеством выходов мы определяем норму L1 как сумму норм L1 всех функций активации, т. е.
Кроме того, мы определяем энтропию как
Общая цель обучения представляет собой потерю предсказания плюс L1 и энтропийную регуляризацию всех слоев KAN:
где — относительные величины, обычно устанавливаемые равными , а λ управляет общей величиной регуляризации.
2. Визуализация. Когда мы визуализируем KAN, чтобы получить представление о величинах, мы устанавливаем прозрачность функции активации пропорциональной tanh(), где . Таким образом, функции с малой величиной кажутся затухшими, что позволяет нам сосредоточиться на важных.
3. Отсечение (Pruning). После обучения со штрафом за разрежение мы также можем захотеть отсечь сеть до меньшей подсети. Мы отсеиваем KAN на уровне узлов (а не на уровне границ). Для каждого узла (скажем, нейрона в слое ) мы определяем его входящие и исходящие баллы как
и считаем узел важным, если и входящие, и исходящие баллы больше порогового гиперпараметра по умолчанию. Все неважные нейроны отсеиваются.
4. Символизация (Symbolification). В случаях, когда мы подозреваем, что некоторые функции активации на самом деле являются символическими (например, cos или log), мы предоставляем интерфейс для установки их в указанную символическую форму, где fix_symbolic может установить активацию в . Однако мы не можем просто установить функцию активации в качестве точной символической формулы, поскольку ее входы и выходы могут иметь сдвиги и масштабирования. Таким образом, мы получаем предактивации и постактивации из образцов и подгоняем аффинные параметры таким образом, что . Подгонка выполняется с помощью итеративного поиска сетки , и линейной регрессии. Помимо этих методов, мы предоставляем дополнительные инструменты, которые позволяют пользователям применять более детальный контроль к KAN, перечисленных в Приложении A.
2.5.2 Игрушечный пример: как пользователи могут взаимодействовать с KAN
Выше мы предложили ряд методов упрощения для KAN. Мы можем рассматривать эти варианты упрощения как кнопки, на которые можно нажать. Пользователь, взаимодействующий с этими кнопками, может решить, какую кнопку наиболее перспективно нажать следующей, чтобы сделать KAN более интерпретируемыми. Мы используем пример ниже, чтобы продемонстрировать, как пользователь может взаимодействовать с KAN, чтобы получить максимально интерпретируемые результаты. Давайте снова рассмотрим задачу регрессии
Имея данные точек , гипотетический пользователь Алиса заинтересована в выяснении символической формулы. Этапы взаимодействия Алисы с KAN описаны ниже (проиллюстрированы на рисунке 2.4):
Шаг 1: Обучение с разрежением. Начиная с полностью связанной [2,5,1] KAN, обучение с регуляризацией разрежения может сделать ее довольно разреженной. 4 из 5 нейронов в скрытом слое кажутся бесполезными, поэтому мы хотим их отсечь.
Шаг 2: Обрезка (pruning). Видно, что автоматическая обрезка отбрасывает все скрытые нейроны, кроме последнего, оставляя [2,1,1] KAN. Функции активации, по-видимому, являются известными символическими функциями.
Шаг 3: Установка символических функций. Предполагая, что пользователь может правильно угадать эти символические формулы, глядя на график KAN, он может установить
В случае, если пользователь не имеет знаний в данной области или не имеет представления о том, какими символическими функциями могут быть эти функции активации, мы предоставляем функцию suggest_symbolic для предложения символических кандидатов.
Шаг 4: Дальнейшее обучение. После символизации всех функций активации в сети единственными оставшимися параметрами являются аффинные параметры. Мы продолжаем обучение этих аффинных параметров, и когда видим, что потери снижаются до машинной точности, мы знаем, что нашли правильное символьное выражение.
Шаг 5: Вывод символической формулы. Sympy используется для вычисления символической формулы выходного узла. Пользователь получает , что является истинным ответом (мы отобразили только два десятичных знака для ).
Замечание: Почему не символическая регрессия (SR)? Для этого примера разумно использовать символическую регрессию. Однако методы символической регрессии, как правило, хрупкие и их трудно отлаживать. Они либо возвращают успех, либо неудачу в конце, не выводя интерпретируемых промежуточных результатов. Напротив, KAN выполняют непрерывный поиск (с градиентным спуском) в функциональном пространстве, поэтому их результаты более непрерывны и, следовательно, более надежны. Более того, пользователи имеют бо́льший контроль над KAN по сравнению с SR из-за прозрачности KAN. То, как мы визуализируем KAN, похоже на демонстрацию «мозга» KAN пользователям, и пользователи могут выполнять «операцию» (отладку) на KAN. Этот уровень контроля обычно недоступен для SR. Мы покажем примеры этого в разделе 4.4. В более общем плане, когда целевая функция не является символической, символическая регрессия не сработает, но KAN все равно могут предоставить что-то значимое. Например, специальная функция (т.е. функция Бесселя Bessel function) не может быть изучена с помощью SR, если она не предоставлена заранее, но KAN могут использовать сплайны для ее численной аппроксимации в любом случае (см. рисунок 4.1 (d)).
В этом разделе мы демонстрируем, что KAN более эффективны для представления функций, чем MLP, в различных задачах (регрессия и решение PDE). При сравнении двух семейств моделей справедливо сравнивать как их точность (loss), так и их сложность (количество параметров). Мы покажем, что KAN демонстрируют более благоприятные границы Парето (Pareto Frontiers), чем MLP. Более того, в разделе 3.5 мы показываем, что KAN могут естественным образом работать в непрерывном обучении без катастрофического забывания.
3.1 Игрушечные наборы данных
В разделе 2.3 наша теория предположила, что тест RMSE loss масштабируется как с параметрами модели . Однако это основано на существовании представления Колмогорова-Арнольда. В качестве проверки здравомыслия мы строим пять примеров, которые, как мы знаем, имеют гладкие представления KA:
(1) , что является функцией Бесселя. Поскольку это одномерная функция, ее можно представить сплайном, который является [1,1] KAN.
(2) . Мы знаем, что его можно точно представить как [2,1,1] KAN.
(3) . Из рисунка 4.1 мы знаем, что его можно точно представить как [2,2,1] KAN.
(4) Пример высокой размерности , который можно представить с помощью [100,1,1] KAN
(5) Четырехмерный пример который можно представить как [4,4,2,1] KAN.
Мы обучаем эти KAN, увеличивая точки сетки каждые 200 шагов, в общем покрывая . Мы обучаем MLP с различной глубиной и шириной в качестве базовых линий. И MLP, и KAN обучаются с LBFGS в общей сложности на 1800 шагов. Мы строим график тестового RMSE как функции количества параметров для KAN и MLP на рисунке 3.1, показывающий, что KAN имеют лучшие кривые масштабирования, чем MLP, особенно для примера с высокой размерностью. Для сравнения мы изобразим линии, предсказанные нашей теорией KAN, как красные пунктирные, а линии, предсказанные Шармой и Капланом (Sharma & Kaplan) [24], как черные пунктирные . KAN представляют собой круто снижающиеся красные линии, в то время как MLP даже примерно не повторяют черные линии, и быстро выходят на плато. Мы также отмечаем, что в последнем примере 2-слойный KAN [4,9,1] ведет себя намного хуже, чем 3-слойный KAN (форма [4,2,2,1]). Это подчеркивает большую выразительную силу более глубоких KAN, что является тем же для MLP: более глубокие MLP обладают большей выразительной силой, чем более мелкие. Обратите внимание, что мы приняли ванильную настройку, где и KAN, и MLP обучаются с помощью LBFGS без расширенных методов, например, переключения между Adam и LBFGS или усиления [35]. Мы оставляем сравнение KAN и MLP в расширенных настройках для будущей работы.
3.2 Специальные функции
Одно предостережение относительно приведенных выше результатов заключается в том, что мы предполагаем знание «истинной» формы KAN. На практике мы не знаем о существовании представлений KA. Даже когда нам обещают, что такое представление KA существует, мы не знаем форму KAN априори. Специальные функции более чем от одной переменной являются такими случаями, потому что было бы (математически) удивительно, если бы многомерные специальные функции (например, функция Бесселя могли быть записаны в представлениях KA, включающих только одномерные функции и суммы).
Ниже мы показываем, что:
(1) Возможно нахождение (приближенное) компактных KA-представлений специальных функций, раскрывающих новые математические свойства специальных функций с точки зрения представлений Колмогорова-Арнольда.
(2) KAN более эффективны и точны в представлении специальных функций, чем MLP.
Мы собрали 15 специальных функций, распространенных в математике и физике, сведенных в таблицу 1. Мы выбираем MLP с фиксированной шириной 5 или 100 и глубиной в . Мы запускаем KAN как с обрезкой, так и без нее. KAN без обрезки: Мы фиксируем форму KAN, ширина которого равна 5, а глубины развернуты в . KAN с обрезкой. Мы используем технику спарсификации (sparsification) ( или ) и обрезки, описанную в разделе 2.5.1, чтобы получить меньший KAN, обрезанный из KAN с фиксированной формой. Каждый KAN инициализируется для = 3, обучается с помощью LBFGS, с увеличением количества точек сетки каждые 200 шагов для покрытия . Для каждой комбинации гиперпараметров мы запускаем 3 случайных seeds.
Для каждого набора данных и каждого семейства моделей (KANs или MLPs) мы построили график границы Парето* в плоскости (количество параметров, RMSE), показанный на рисунке 3.2. Показано, что производительность KAN стабильно лучше, чем MLP, т. е. KAN может достичь меньших потерь при обучении/тестировании, чем MLP, при том же количестве параметров. Более того, в таблице 1 мы приводим (удивительно компактные) формы наших автооткрытых KAN для специальных функций. С одной стороны, интересно интерпретировать, что эти компактные представления означают с математической точки зрения (мы приводим иллюстрации KAN на рисунках F.1 и F.2 в Приложении F). С другой стороны, эти компактные представления подразумевают возможность разбиения высокоразмерной таблицы поиска на несколько одномерных таблиц поиска, что потенциально может сэкономить много памяти при (почти незначительных) затратах на выполнение нескольких дополнений во время вывода.
* Граница Парето определяется как соответствие, которое является оптимальным в том смысле, что никакое другое соответствие не является одновременно более простым и точным.
3.3 Наборы данных Feynman
Настройка в Разделе 3.1 - это когда мы четко знаем «истинные» формы KAN. Настройка в Разделе 3.2 — это когда мы четко не знаем «истинные» формы KAN. В этой части исследуется настройка, лежащая посередине:
Учитывая структуру набора данных, мы можем построить KAN вручную, но мы не уверены, что они оптимальны. В этом режиме интересно сравнить KAN, созданные человеком, и KAN, обнаруженные автоматически с помощью обрезки (методы в разделе 2.5.1).
Набор данных Фейнмана. Набор данных Фейнмана собирает множество физических уравнений из учебников Фейнмана [36, 37]. Для нашей цели нас интересуют задачи из набора данных Feynman_no_units, которые имеют по крайней мере 2 переменные, поскольку одномерные задачи тривиальны для KAN (они упрощаются до 1D-сплайнов). Пример уравнения из набора данных Фейнмана — это формула сложения релятивистских скоростей
Набор данных может быть построен путем случайного выбора , и вычисления . При наличии множества кортежей нейронная сеть обучается и стремится предсказать из и . Нас интересует (1) насколько хорошо нейронная сеть может работать на тестовых выборках; (2) насколько много мы можем узнать о структуре проблемы с помощью нейронных сетей.
Мы сравниваем четыре вида нейронных сетей:
(1) Сконструированный человеком KAN. Имея символическую формулу, мы переписываем ее в представлениях Колмогорова-Арнольда. Например, чтобы умножить два числа и , мы можем использовать тождество
,
что соответствует [2,2,1] KAN. Сконструированные формы перечислены в «Форма KAN, сконструированная человеком» в Таблице 2.
(2) KAN без обрезки. Мы фиксируем форму KAN на ширине 5, а глубины увеличиваем до .
(3) KAN с обрезкой. Мы используем разрежение ( или ) и технику обрезки из раздела 2.5.1, чтобы получить меньший KAN из фиксированной формы KAN из (2).
(4) MLP с фиксированной шириной 5, глубинами, охватываемыми в , и активациями, выбранными из
Каждая KAN инициализируется с = 3, обучается с LBFGS, с увеличением числа точек сетки каждые 200 шагов для покрытия . Для каждой комбинации гиперпараметров мы пробуем 3 случайных начальных числа. Для каждого набора данных (уравнения) и каждого метода мы сообщаем результаты лучшей модели (минимальная форма KAN или наименьшие потери теста) по случайным начальным числам и глубинам в Таблице 2. Мы обнаружили, что MLP и KAN ведут себя в среднем сопоставимо. Для каждого набора данных и каждого семейства моделей (KAN или MLP) мы строим границу Парето на плоскости, охватываемой числом параметров и потерями RMSE, показанными на рисунке D.1 в Приложении D. Мы предполагаем, что наборы данных Фейнмана слишком просты, чтобы позволить KAN внести дальнейшие улучшения, в том смысле, что зависимость переменных обычно гладкая или монотонная, что контрастирует со сложностью специальных функций, которые часто демонстрируют колебательное поведение.
Автоматически найденные KAN меньше, чем построенные человеком. Мы сообщаем обрезанную (pruned) форму KAN в двух столбцах таблицы 2; в одном столбце - минимальная обрезанная форма KAN, которая может обеспечить приемлемые потери (т. е. RMSE теста меньше ); в другом - обрезанная форма KAN, которая обеспечивает наименьшие потери теста. Для полноты картины мы визуализируем все 54 обрезанных KAN в приложении D (рис. D.2 и D.3). Интересно заметить, что автоматически найденные формы KAN (как для минимального, так и для лучшего) обычно меньше, чем наши человеческие конструкции. Это означает, что KA-представления могут быть более эффективными, чем мы себе представляем. В то же время это может затруднить интерпретацию, поскольку информация сжимается в меньшее пространство, чем нам удобно.
Рассмотрим, например, релятивистскую композицию скоростей . Наша конструкция довольно глубокая, поскольку мы предполагали, что умножение будет использовать два слоя (см. рисунок 4.1 (a)), инверсия будет использовать один слой, а умножение и будет использовать еще два слоя*, что в итоге дает 5 слоев (*Обратите внимание, что мы не можем использовать логарифмическую конструкцию для деления, поскольку и здесь могут быть отрицательными числами). Однако автоматически обнаруженные KAN имеют глубину всего 2 слоя! Оглядываясь назад, это на самом деле ожидаемо, если мы вспомним трюк с быстротой в теории относительности: определим две «быстроты» и . Релятивистская композиция скоростей — это простые сложения в пространстве быстроты, т.е. , которые могут быть реализованы двухслойной KAN. Притворяясь, что мы не имеем понятия о быстроте в физике, мы могли бы потенциально обнаружить эту концепцию прямо из KAN без проб и ошибок символических манипуляций. Интерпретируемость KAN, которая может облегчить научное открытие, является основной темой в Разделе 4.
3.4 Решение уравнений в частных производных (partial differential equation PDE)
Мы рассматриваем уравнение Пуассона с нулевыми граничными данными Дирихле. Для рассмотрим уравнение в частных производных
Рассмотрим данные , для которых является истинным решением. Мы используем структуру нейронных сетей, основанных на физике (PINN) [38, 39], чтобы решить это уравнение в частных производных, с функцией потерь, заданной как
где мы используем для обозначения внутренних потерь, дискретизированных и оцененных путем равномерной выборки из точек внутри области, и аналогично мы используем для обозначения граничных потерь, дискретизированных и оцененных путем равномерной выборки из точек на границе, — гиперпараметр, уравновешивающий эффект двух членов.
Мы сравниваем архитектуру KAN с архитектурой MLP, используя те же гиперпараметры , и . Мы измеряем как ошибку norm, так и норму энергии () и видим, что KAN достигает гораздо лучшего закона масштабирования с меньшей ошибкой, используя меньшие сети и меньшее количество параметров; см. рисунок 3.3. Двухслойная ширина – 10 KAN в 100 раз точнее, чем четырехслойная ширина – 100 MLP ( против MSE) и в 100 раз эффективнее по параметрам ( против параметров). Поэтому мы предполагаем, что KAN могут иметь потенциал служить хорошим представлением нейронной сети для сокращения моделей PDE. Однако мы хотим отметить, что наша реализация KAN обычно в 10 раз медленнее, чем MLP для обучения. То, что истина представляет собой символическую формулу, может быть несправедливым сравнением для MLP, поскольку KAN хороши для представления символических формул. В целом, KAN и MLP хороши для представления различных классов функций решений PDE, что требует детального будущего изучения для понимания их соответствующих границ.
3.5 Непрерывноe обучение
Катастрофическое забывание является серьезной проблемой в современном машинном обучении [40]. Когда человек справляется с задачей и переходит к другой задаче, он не забывает, как выполнять первую задачу. К сожалению, это не так для нейронных сетей. Когда нейронная сеть обучается по задаче 1, а затем переходит к обучению по задаче 2, сеть скоро забудет о том, как выполнять задачу 1.
Ключевое различие между искусственными нейронными сетями и человеческим мозгом заключается в том, что человеческий мозг имеет функционально различные модули, размещенные локально в пространстве. Когда изучается новая задача, реорганизация структуры происходит только в локальных регионах, ответственных за соответствующие навыки [41, 42], оставляя другие регионы нетронутыми. Большинство искусственных нейронных сетей, включая MLP, не имеют этого понятия локальности, что, вероятно, является причиной катастрофического забывания.
Мы показываем, что KAN обладают локальной пластичностью и могут избежать катастрофического забывания, используя локальность сплайнов. Идея проста: поскольку сплайновые базы локальны, выборка повлияет только на несколько близлежащих коэффициентов сплайна, оставляя далекие коэффициенты нетронутыми (что желательно, поскольку далекие регионы могут уже хранить информацию, которую мы хотим сохранить). Напротив, поскольку MLP обычно используют глобальные активации, например, ReLU/Tanh/SiLU и т. д., любое локальное изменение может неконтролируемо распространяться на далекие регионы, уничтожая хранящуюся там информацию.
Мы используем игрушечный пример для проверки этой интуиции. Задача одномерной регрессии состоит из 5 пиков Гаусса. Данные вокруг каждого пика представляются последовательно (а не все сразу) KAN и MLP, как показано на верхнем ряду рисунка 3.4. Прогнозы KAN и MLP после каждой фазы обучения показаны в среднем и нижнем рядах. Как и ожидалось, KAN ремоделирует только регионы, где присутствуют данные в текущей фазе, оставляя предыдущие регионы неизменными. Напротив, MLP ремоделирует весь регион после просмотра новых образцов данных, что приводит к катастрофическому забыванию.
Здесь мы просто представляем наши предварительные результаты на чрезвычайно простом примере, чтобы продемонстрировать, как можно было бы использовать локальность в KAN (благодаря параметризации сплайнов) для уменьшения катастрофического забывания. Однако остается неясным, может ли наш метод быть обобщен на более реалистичные установки, особенно в случаях с высокой размерностью, где неясно, как определить «локальность». В будущей работе мы также хотели бы изучить, как наш метод может быть связан и объединен с методами SOTA в непрерывном обучении [43, 44].
Мы хотим протестировать использование KAN не только на синтетических задачах (раздел 4.1 и 4.2), но и в реальных научных исследованиях. Мы демонстрируем, что KAN могут (пере)открывать как весьма нетривиальные отношения в теории узлов (раздел 4.3), так и границы фазовых переходов в физике конденсированного состояния (раздел 4.4). KAN потенциально могут стать базовой моделью для AI+Science благодаря своей точности (последний раздел) и интерпретируемости (этот раздел).
4.1 Наблюдаемые (контролируемые) наборы игрушечных данных
Сначала мы исследуем способность KAN выявлять композиционные структуры в символьных формулах. Шесть примеров приведены ниже, а их KAN визуализированы на рисунке 4.1. KAN способны выявить композиционные структуры, присутствующие в этих формулах, а также выучить правильные одномерные функции.
(a) Умножение . KAN [2,5,1] обрезается до KAN [2,2,1]. Обученные функции активации являются линейной и квадратичной. Из графика вычислений видно, что способ вычисления основан на использовании .
(b) Деление положительных чисел . KAN [2,5,1] обрезается до KAN [2,1,1]. Обученные функции активации - это логарифмическая и экспоненциальная функции, а KAN вычисляет , используя тождество .
(c) Числовые в категориальные. Задача состоит в преобразовании вещественного числа в диапазоне в его первую десятичную цифру (в виде одной точки), например, . Обратите внимание, что функции активации обучаются как пики, расположенные вокруг соответствующих десятичных цифр.
(d) Специальная функция . Одно из ограничений символьной регрессии заключается в том, что она никогда не найдет правильную формулу специальной функции, если специальная функция не предоставлена в качестве предварительного знания. KAN могут обучаться специальным функциям - сильно волнистая функция Бесселя обучается (численно) с помощью KAN.
(e) Фазовый переход . Фазовые переходы представляют большой интерес в физике, поэтому мы хотим, чтобы KAN могли обнаруживать фазовые переходы и определять правильные параметры порядка. Мы используем функцию для моделирования поведения фазового перехода, а параметр порядка представляет собой комбинацию членов четвертой степени . Как зависимость четвертой степени, так и зависимость появляются после обучения KAN. Это упрощенный случай локализационного фазового перехода, обсуждаемого в разделе 4.4.
(f) Более глубокие композиции . Для вычисления этого нам понадобятся функция тождества, квадратная функция и квадратный корень, что требует как минимум трехслойного KAN. Действительно, мы обнаруживаем, что [4, 3, 3, 1] KAN может быть автоматически сокращен до [4, 2, 1, 1] KAN, что в точности соответствует ожидаемому нами графу вычислений.
Дополнительные примеры из набора данных Фейнмана и набора данных специальных функций представлены на рисунках D.2, D.3, F.1, F.2 в приложениях D и F.
4.2 Игрушечный набор данных для обучения без учителя
Часто научные открытия формулируются как контролируемые задачи обучения, т. е., имея входные переменные и выходную переменную(ые) , мы хотим найти интерпретируемую функцию такую, что . Однако другой тип научного открытия может быть сформулирован как неконтролируемое обучение, т. е., имея набор переменных , мы хотим обнаружить структурную связь между переменными. В частности, мы хотим найти ненулевое f такое, что
Например, рассмотрим набор признаков , который удовлетворяет . Тогда допустимым является , что подразумевает, что точки образуют двумерное подмногообразие, заданное , а не заполняют все трехмерное пространство.
Если алгоритм решения неконтролируемой задачи может быть разработан, он будет иметь значительное преимущество перед контролируемой задачей, поскольку для него требуются только наборы признаков . С другой стороны, контролируемая задача пытается предсказать подмножества признаков с точки зрения других, т.е. она разбивает на входные и выходные признаки обучаемой функции. Без экспертных знаний в данной области, которые могли бы посоветовать разбиение, существует возможностей, таких что и .
Этого экспоненциально большого пространства контролируемых проблем можно избежать, используя неконтролируемый подход. Этот неконтролируемый подход к обучению будет ценным для набора данных узлов в разделе 4.3. Команда Google Deepmind [45] вручную выбрала сигнатуру в качестве целевой переменной, в противном случае они столкнулись бы с этой комбинаторной проблемой, описанной выше. Здесь поднимается вопрос, можем ли мы вместо этого напрямую заняться неконтролируемым обучением. Мы представляем наш метод и игрушечный пример ниже.
Мы решаем проблему неконтролируемого обучения, превращая ее в проблему контролируемого обучения на всех признаках , не требуя выбора разбиения.
Основная идея состоит в том, чтобы изучить функцию , такую, что не является 0-функцией. Для этого, подобно контрастному обучению, мы определяем положительные образцы и отрицательные образцы: положительные образцы являются векторами признаков реальных данных. Отрицательные образцы создаются путем искажения признаков. Чтобы гарантировать, что общее распределение признаков для каждого топологического инварианта остается прежним, мы выполняем искажение признаков путем случайной перестановки каждого признака по всему обучающему набору. Теперь мы хотим обучить сеть так, чтобы и , что превращает задачу в контролируемую задачу.
Однако помните, что изначально мы хотим, чтобы и . Мы можем добиться этого, имея , где - гауссова функция с малой шириной , которую можно удобно реализовать с помощью KAN с формой [...,1,1], последняя активация которой установлена как гауссова функция , а все предыдущие слои образуют . За исключением упомянутых выше изменений, все остальное для контролируемого обучения остается прежним.
Теперь мы продемонстрируем, что неконтролируемая парадигма работает для синтетического примера. Давайте рассмотрим 6D набор данных, где — зависимые переменные, такие что ; - зависимые переменные, причем ; x6 не зависит от других переменных.
На рисунке 4.2 мы показываем, что для seed = 0 KAN раскрывает функциональную зависимость между , и ; для другого seed = 2024 KAN раскрывает функциональную зависимость между и . Наши предварительные результаты основаны на случайности (разные начальные значения) для обнаружения различных отношений; в будущем мы хотели бы исследовать более систематический и более контролируемый способ обнаружения полного набора отношений. Тем не менее, наш инструмент в его текущем состоянии может предоставить информацию для научных задач. Мы представляем наши результаты с набором данных узлов в разделе 4.3.
4.3 Применение к математике: теория узлов
Теория узлов — это предмет в низкоразмерной топологии, который проливает свет на топологические аспекты трех- и четырехмерных многообразий и имеет множество приложений, в том числе в биологии и топологических квантовых вычислениях. Математически узел является вложением в . Два узла и топологически эквивалентны, если один может быть деформирован в другой посредством деформации окружающего пространства , в этом случае мы пишем . Некоторые узлы топологически тривиальны, что означает, что их можно гладко деформировать в стандартную окружность. Узлы имеют множество деформационно-инвариантных особенностей f, называемых топологическими инвариантами, которые можно использовать для показа того, что два узла топологически неэквивалентны, , если . В некоторых случаях топологические инварианты имеют геометрическую природу. Например, гиперболический узел имеет дополнение узла \ , которое допускает каноническую гиперболическую метрику , такую что является топологическим инвариантом, известным как гиперболический объем.
Другие топологические инварианты имеют алгебраическую природу, например, многочлен (polynomial) Джонса.
Учитывая фундаментальную природу узлов (knots) в математике и важность ее приложений, интересно изучить, может ли машинное обучение привести к новым результатам. Например, в [46] обучение с подкреплением использовалось для установления ленточности (ribbonness) определенных узлов, что исключило многие потенциальные контрпримеры к гладкой 4d гипотезе Пуанкаре.
Контролируемое обучение В [45] для получения новой теоремы, связывающей алгебраические и геометрические инварианты узлов принимали участие эксперты в предметной области, а также использовалось контролируемое обучение. В этом случае градиентная заметность определила ключевые инварианты для контролируемой проблемы, что привело экспертов в предметной области к выдвижению гипотезы, которая впоследствии была уточнена и доказана. Мы изучаем, может ли KAN достичь хороших интерпретируемых результатов по той же проблеме, которая предсказывает сигнатуру узла. Основные результаты, полученные при изучении набора данных по теории узлов, таковы:
(1) Используя методы сетевой атрибуции, они обнаружили, что подпись (signature) в основном зависит от меридионального расстояния (meridinal distance) (реальное , воображаемое ) и продольного расстояния .
(2) Учёные позже установили, что имеет высокую корреляцию с наклоном
и вывели границу для . (2)
Ниже мы покажем, что KAN не только повторно обнаруживает эти результаты с гораздо меньшими сетями и гораздо большей степенью автоматизации, но и представляет некоторые интересные новые результаты и идеи. Чтобы исследовать (1), мы рассматриваем 17 инвариантов узлов как входные данные, а сигнатуру - как выходные. Аналогично настройке в [45], сигнатуры (которые являются четными числами) кодируются как однократные векторы, и сети обучаются с cross-entropy loss. Мы обнаружили, что очень малая [17,1,14] KAN может достичь точности 81,6% (в то время как 4-слойная ширина 300 MLP Deepmind достигает точности 78%). Для [17,1,14] KAN ( = 3, = 3) имеется 200 параметров, в то время как для MLP параметров, показанных в таблице 3. Примечательно, что KAN могут быть одновременно более точными и гораздо более эффективными по параметрам, чем MLP. С точки зрения интерпретируемости, мы шкалируем прозрачность каждой активации в зависимости от ее величины, так что сразу становится ясно, какие входные переменные важны, без необходимости атрибуции признаков (см. рис. 4.3 слева): сигнатура в основном зависит от , немного зависит от и , а зависимость от других переменных невелика. Затем мы обучаем [3,1,14] KAN на трех важных переменных, получая точность теста 78,2%. Наши результаты имеют одно небольшое отличие от результатов работы [45]: они показывают, что сигнатура в основном зависит от , в то время как мы обнаруживаем, что сигнатура в основном зависит от . Это различие могло быть вызвано тонкими алгоритмическими решениями, но оно привело нас к проведению следующих экспериментов: (а) исследования абляции (ablation studies). Мы показываем, что вносит бо́льший вклад в точность, чем (см. рисунок 4.3): например, в одиночку может достичь 65,0% точности, в то время как в одиночку может достичь только 43,8% точности. (b) Мы находим символьную формулу (в таблице 4), в которой участвуют только и , но точность теста составляет 77,8 %.
Чтобы исследовать (2), то есть получить символическую форму , мы формулируем проблему как задачу регрессии. Используя автосимвольную регрессию, представленную в разделе 2.5.1, мы можем преобразовать обученный KAN в символьные формулы.
Мы обучаем KAN с формами [3,1], [3,1,1], [3,2,1], соответствующие символьные формулы которых представлены в таблице 4 B-D. Очевидно, что при использовании более крупного KAN возрастает как точность, так и сложность. Таким образом, KAN предоставляют не просто одну символьную формулу, а целый фронтир формул Парето, компромисс между простотой и точностью. Однако KAN нуждаются в дополнительных индуктивных смещениях для дальнейшего упрощения этих уравнений, чтобы заново найти формулу из [45] (табл. 4 A). Мы протестировали два сценария: (1) в первом сценарии мы предполагаем, что формула истины имеет многомерное представление Pade (деление двух многомерных рядов Тейлора). Сначала мы обучаем [3,2,1], а затем подгоняем ее под представление Pade. В таблице 4 мы можем получить формулу E, которая имеет сходство с формулой Deepmind. (2) Мы предполагаем, что деление не очень интерпретируемо для KAN, поэтому мы обучаем два KAN (один для числителя, другой для знаменателя) и делим их вручную. Удивительно, но в итоге мы получаем формулу F (в табл. 4), в которой участвуют только и , хотя также присутствует, но игнорируется KAN.
К настоящему времени мы заново открыли основные результаты из [45]. Примечательно, что KAN сделали это открытие очень интуитивным и удобным. Вместо того чтобы использовать методы атрибуции признаков (которые являются отличными методами), можно просто смотреть на визуализацию KAN. Более того, автоматическая символьная регрессия также значительно упрощает поиск символьных формул.
В следующей части мы предлагаем новую парадигму «ИИ для математики», не включенную в статью Deepmind, в которой мы стремимся использовать режим обучения KANs без контроля для обнаружения большего количества отношений (помимо сигнатур) в инвариантах узлов.
Обучение без учителя Как мы упоминали в разделе 4.2, обучение без учителя - это более перспективная настройка, поскольку она позволяет избежать ручного разделения входных и выходных переменных, которые имеют множество комбинаторных возможностей. В режиме обучения без контроля мы обрабатываем все 18 переменных (включая сигнатуру) как входные данные, чтобы они были одинаковыми. Данные узлов - это положительные выборки, и мы случайным образом перемешиваем объекты, чтобы получить отрицательные выборки. KAN обучен определять, принадлежит ли данный вектор признаков положительной выборке (1) или отрицательной выборке (0).
Мы вручную настроили активацию второго уровня как гауссову функцию с максимумом, центрированным на нуле, поэтому положительные выборки будут активироваться (около) нуля, неявно задавая соотношение между инвариантами узлов
,
где - обозначает признак (инвариант), а - это соответствующая функция активации, которая может быть легко считана с диаграмм KAN. Мы обучаем KAN с , чтобы получить разреженную комбинацию входов, и seed = {0,1, ··· ,99}. Все 200 сетей можно сгруппировать в три кластера, а репрезентативные KAN показаны на рисунке 4.4. Эти три группы зависимых переменных:
(1) Первая группа зависимых переменных - это сигнатура, реальная часть меридионального расстояния и продольное расстояние (плюс еще две переменные, которые можно убрать из (3)). Это зависимость от сигнатуры, изученной выше, поэтому очень интересно видеть, что эта зависимость снова обнаруживается в режиме без контроля.
(2) Вторая группа переменных включает в себя объем , действительную часть меридиональной трансляции и продольную трансляцию . Все их активации выглядят как логарифмические функции (в чем можно убедиться с помощью подразумеваемого символьного функционала в разделе 2.5.1). Таким образом, отношение , что эквивалентно , что верно по определению. Однако обнадеживает то, что мы обнаруживаем это соотношение без каких-либо предварительных знаний.
(3) Третья группа переменных включает в себя действительную часть короткой геодезической (geodesic) и радиус инъективности. Их активации выглядят качественно одинаково, но отличаются знаком минус, поэтому предполагается, что эти две переменные имеют линейную корреляцию. Мы построили двумерные скаттеры, обнаружив, что верхняя граница , что также является хорошо известным соотношением [47].
Интересно, что неконтролируемый режим KAN может заново открыть несколько известных математических соотношений. Хорошая новость в том, что результаты, обнаруженные KAN, вероятно, надежны; плохая новость в том, что мы пока не открыли ничего нового. Стоит отметить, что мы выбрали неглубокую KAN для простой визуализации, но более глубокие KAN, вероятно, могут найти больше соотношений, если они существуют. Мы хотели бы исследовать, как обнаружить более сложные отношения с помощью более глубоких KAN в будущей работе.
4.4 Применение в физике: локализация Андерсона
Локализация Андерсона является фундаментальным явлением, при котором беспорядок в квантовой системе приводит к локализации электронных волновых функций, что приводит к прекращению любого транспорта [48]. В одно- и двух измерениях аргументы масштабирования показывают, что все электронные собственные состояния экспоненциально локализованы для бесконечно малого количества случайного беспорядка [49, 50]. Напротив, в трех измерениях критическая энергия образует фазовую границу, которая отделяет расширенные состояния от локализованных состояний, известную как край подвижности. Понимание этих краев подвижности имеет решающее значение для объяснения различных фундаментальных явлений, таких как переход металл-изолятор в твердых телах [51], а также эффекты локализации света в фотонных устройствах [52, 53, 54, 55, 56]. Поэтому необходимо разрабатывать микроскопические модели, которые демонстрируют края подвижности, чтобы обеспечить возможность детальных исследований. Разработка таких моделей часто более практична в более низких измерениях, где введение квазипериодичности вместо случайного беспорядка также может привести к краям подвижности, которые разделяют локализованные и расширенные фазы. Более того, экспериментальные реализации аналитических границ мобильности могут помочь разрешить спор о локализации во взаимодействующих системах [57, 58]. Действительно, несколько недавних исследований были сосредоточены на идентификации таких моделей и выводе точных аналитических выражений для их границ мобильности [59, 60, 61, 62, 63, 64, 65].
Здесь мы применяем KAN к числовым данным, полученным из квазипериодических моделей сильной связи, для извлечения их краев мобильности. В частности, мы рассматриваем три класса моделей: модель Mosaic (MM) [63], обобщенную модель Aubry-André (GAAM) [62] и модифицированную модель Aubry-André (MAAM) [60]. Для MM мы свидетельствуем о способности KAN точно извлекать край мобильности как одномерную функцию энергии. Для GAAM мы обнаруживаем, что формула, полученная из KAN, близко соответствует истинной. Для более сложной MAAM мы демонстрируем еще один пример символической интерпретируемости этой структуры. Пользователь может упростить сложное выражение, полученное из KAN (и соответствующих символических формул), с помощью «сотрудничества», когда исследователь генерирует гипотезы для получения лучшего соответствия (например, делая предположение о форме определенной функции активации), после чего KAN могут выполнять быструю проверку гипотез.
Для количественной оценки локализации состояний в этих моделях обычно используется обратное отношение участия (IPR). IPR для k-го собственного состояния, ψ(k), определяется как
где сумма пробегает индекс сайта (site index). Здесь мы используем связанную меру локализации – фрактальную размерность состояний, определяемую как
где – размер системы. указывает на локализованные (расширенные) состояния.
Мозаичная модель (ММ) Сначала рассмотрим класс моделей сильной связи, определяемых гамильтонианом [63]
где — связь ближайшего соседа, cn(c†n) — оператор уничтожения (рождения) в узле , а потенциальная энергия определяется как
Чтобы ввести квазипериодичность, мы устанавливаем иррациональным (в частности, мы выбираем равным золотому сечению . — целое число, а квазипериодический потенциал возникает с интервалом . Спектр энергии для этой модели в общем случае содержит протяженные и локализованные режимы, разделенные краем подвижности. Интересно, что здесь обнаружена уникальная особенность, заключающаяся в том, что края подвижности присутствуют для произвольно сильного квазипериодического потенциала (т. е. в системе всегда присутствуют протяженные состояния, которые сосуществуют с локализованными).
Границу мобильности можно описать как . и соответствуют локализованной и расширенной фазам соответственно. Таким образом, изучение грани мобильности зависит от изучения «параметра порядка» . По общему признанию, эта проблема может быть решена многими другими теоретическими методами для этого класса моделей [63], но ниже мы покажем, что наша структура KAN готова и удобна для принятия предположений и индуктивных предубеждений от исследователей.
Предположим, что есть гипотетический пользователь Алиса, которая является докторантом по физике конденсированного состояния, и ей предоставлен [2,1] KAN в качестве помощника для выполнения задачи. Во-первых, она понимает, что это задача классификации, поэтому разумно задать функцию активации во втором слое как сигмоидную, используя функционал . Во-вторых, она понимает, что изучение всей 2D-функции не нужно, поскольку в конечном итоге ее интересует только , определяемая как . При этом разумно предположить . Алиса просто задает функцию активации как линейную, снова используя функционал . Теперь Алиса обучает сеть KAN и получает ребро мобильности, как показано на рисунке 4.5. Алиса может получить как интуитивное качественное понимание (внизу), так и количественные результаты (в середине), которые хорошо соответствуют истине (вверху).
Обобщенная модель Андре-Обри (GAAM) Далее мы рассмотрим класс моделей сильной связи, определяемых гамильтонианом [62]
где — это связь ближайших соседей, - оператор уничтожения (рождения) в узле n, а потенциальная энергия задается как
которая является гладкой для . Чтобы ввести квазипериодичность, мы снова устанавливаем иррациональным (в частности, мы выбираем как золотое сечение). Как и прежде, мы хотели бы получить выражение для границы подвижности. Для этих моделей граница подвижности задается выражением замкнутой формы [62, 64],
Мы случайным образом выбираем параметры модели: , и (устанавливая шкалу энергии = 1) и вычисляем собственные значения энергии, а также фрактальную размерность соответствующих собственных состояний, что формирует наш обучающий набор данных.
Здесь изучаемый «параметр порядка» («order parameter») равен , а ребро мобильности соответствует . Давайте снова предположим, что Алиса хочет выяснить ребро мобильности, но у нее есть доступ только к данным IPR или фрактальной размерности, поэтому она решает использовать KAN, чтобы помочь себе с этой задачей. Алиса хочет, чтобы модель была как можно меньше, поэтому она может либо начать с большой модели и использовать автоматическую обрезку, чтобы получить маленькую модель, либо она может угадать разумную маленькую модель, основываясь на своем понимании сложности данной проблемы. В любом случае, давайте предположим, что она приходит к [4,2,1,1] KAN. Во-первых, она устанавливает последнюю активацию как сигмоидную, потому что это проблема классификации. Она обучает свою KAN с некоторой регуляризацией разреженности до точности 98,7% и визуализирует обученную KAN на рисунке 4.6 (a), шаг 1. Она замечает, что вообще не улавливается, что позволяет ей понять, что мобильность не зависит от (согласно уравнению (4.8)). Кроме того, она замечает, что почти все другие функции активации являются линейными или квадратичными, поэтому она включает автоматическую символьную привязку, ограничивая библиотеку только линейной или квадратичной. После этого она немедленно получает сеть, которая уже является символической (показано на рисунке 4.6 (a), шаг 2), с сопоставимой (даже немного лучшей) точностью 98,9%. Используя функционал , Алиса удобно получает символическую форму , показанную в таблице 5 GAAM-KAN auto (строка три). Возможно, она хочет вычеркнуть некоторые малые члены и привязать коэффициент к малым целым числам, что приближает ее к истинному ответу.
Эта гипотетическая история для Алисы была бы совершенно другой, если бы она использовала метод символической регрессии. Если ей повезет, SR может вернуть точно правильную формулу. Однако в подавляющем большинстве случаев SR не возвращает полезных результатов, и Алиса не может «отладить» или взаимодействовать с лежащим в основе процессом символической регрессии. Кроме того, Алиса может чувствовать себя некомфортно/неопытно, предоставляя библиотеку символических терминов в качестве априорных знаний для SR до запуска SR. В отличие от этого в KAN, Алисе не нужно вводить какую-либо априорную информацию в KAN. Сначала она может получить некоторые подсказки, глядя на обученную KAN, и только затем ее работа — решить, какую гипотезу она хочет выдвинуть (например, «все активации линейны или квадратичны»), и реализовать свою гипотезу в KAN. Хотя KAN вряд ли вернут правильный ответ немедленно, KAN всегда вернут что-то полезное, и Алиса может сотрудничать с ней, чтобы уточнить результаты.
Модифицированная модель Andre-Aubry (MAAM) Последний класс моделей, которые мы рассматриваем, определяется гамильтонианом [60]
где — сила экспоненциально затухающей связи в пространстве, - оператор уничтожения (рождения) в узле , а потенциальная энергия определяется выражением
Как и прежде, для введения квазипериодичности мы устанавливаем иррациональным (золотое сечение). Для этих моделей граница мобильности задается выражением замкнутой формы [60],
где мы определяем как силу прыжка ближайшего соседа, и устанавливаем в дальнейшем.
Предположим, что Алиса хочет выяснить мобильное преимущество для MAAM. Эта задача сложнее и требует больше человеческой мудрости. Как и в последнем примере, Алиса начинает с [4,2,1,1] KAN и обучает его, но получает точность около 75%, что меньше приемлемого. Затем она выбирает больший [4,3,1,1] KAN и успешно получает 98,4%, что приемлемо (рисунок 4.6 (b) шаг 1). Алиса замечает, что не улавливается KAN, что означает, что граничное значение мобильности не зависит от фазового фактора (согласно уравнению (4.11)). Если Алиса включит автоматическую символьную регрессию (используя большую библиотеку, состоящую из exp, tanh и т. д.), она получит сложную формулу в таблице 5 MAAM-KAN auto, которая имеет точность 97,1%. Однако, если Алиса захочет найти более простую символическую формулу, она захочет использовать ручной режим, в котором будет выполнять символическую привязку. До этого она обнаруживает, что [4,3,1,1] KAN после обучения может быть обрезана до [4,2,1,1], сохраняя при этом точность 97,7% (рисунок 4.6 (b)). Алиса может подумать, что все функции активации, за исключением тех, которые зависят от , являются линейными или квадратичными, и вручную привязать их к линейным или квадратичным с помощью . После привязки и повторного обучения обновленная KAN показана на рисунке 4.6 (c) шаг 3, сохраняя точность 97,7%. С этого момента Алиса может сделать два разных выбора на основе своих предыдущих знаний. В одном случае Алиса могла догадаться, что зависимость от является cosh, поэтому она устанавливает активации как cosh-функцию. Она переобучает KAN и получает точность 96,9% (рисунок 4.6 (c) шаг 4A).
В другом случае Алиса не знает зависимости cosh от , поэтому она стремится к простоте и снова предполагает, что функции являются квадратичными. Она переобучает KAN и получает точность 95,4% (рисунок 4.6 (c) шаг 4B). Если бы она попробовала оба варианта, она бы поняла, что cosh лучше с точки зрения точности, а квадратичный лучше с точки зрения простоты. Формулы, соответствующие этим шагам, перечислены в таблице 5. Очевидно, что чем больше ручных операций выполняет Алиса, тем проще символическая формула (что немного жертвует точностью). У KAN есть «ручка», которую пользователь может настроить для компромисса между простотой и точностью (иногда простота может даже привести к лучшей точности, как в случае GAAM).
Теорема Колмогорова-Арнольда и нейронные сети. Связь между теоремой Колмогорова-Арнольда (KAT) и нейронными сетями не нова в литературе [66, 67, 9, 10, 11, 12, 13, 14, 68, 69], но патологическое поведение внутренних функций делает KAT бесперспективным на практике [66]. Большинство этих предыдущих работ придерживаются исходных сетей с 2 слоями шириной , которые были ограничены по выразительной мощности, и многие из них даже предшествуют обратному распространению. Поэтому большинство исследований были построены на теориях с довольно ограниченными или искусственными игрушечными экспериментами. В более широком смысле KAN также в некоторой степени связаны с обобщенными аддитивными моделями (GAM) [70], графовыми нейронными сетями [71] и ядерными машинами [72]. Связи являются интригующими и фундаментальными, но могут выходить за рамки текущей статьи. Наш вклад заключается в обобщении сети Колмогорова до произвольной ширины и глубины, ее оживлении и контекстуализации в современном потоке глубокого обучения, а также в подчеркивании ее потенциальной роли в качестве базовой модели для AI + Science.
Законы нейронного масштабирования (Neural Scaling Laws NSL). NSL — это явления, в которых потери (losses behave) ведут себя как степенные законы в зависимости от размера модели, данных, вычислений и т. д. [73, 74, 75, 76, 24, 77, 78, 79]. Происхождение NSL все еще остается загадочным, но конкурирующие теории включают внутреннюю размерность [73], квантование задач [78], теорию ресурсов [79], случайные признаки [77], композиционную разреженность [66] и максимальность [25]. Эта статья вносит свой вклад в данное пространство, показывая, что высокоразмерная функция может неожиданно масштабироваться как одномерная функция (что является наилучшей возможной границей, на которую можно надеяться), если она имеет гладкое представление Колмогорова-Арнольда. Наша статья привносит новый оптимизм в законы нейронного масштабирования, поскольку она обещает самую быструю экспоненту масштабирования из когда-либо существовавших. В наших экспериментах мы показали, что этот быстрый закон нейронного масштабирования может быть достигнут на синтетических наборах данных, но необходимы будущие исследования, чтобы ответить на вопрос, достижимо ли это быстрое масштабирование для более сложных задач (например, языкового моделирования): существуют ли представления KA для общих задач? Если да, то находит ли наше обучение эти представления на практике?
Механистическая интерпретируемость (МИ). МИ — это новая область, которая направлена на механистическое понимание внутренней работы нейронных сетей [80, 81, 82, 83, 84, 85, 86, 87, 5]. Исследования МИ можно условно разделить на пассивные и активные исследования МИ. Большинство исследований МИ пассивны в том, что они сосредоточены на понимании существующих нейронных сетей, обученных стандартными методами. Активные исследования МИ пытаются достичь интерпретируемости путем проектирования внутренне интерпретируемых архитектур или разработки методов обучения для явного поощрения интерпретируемости [86, 87]. Наша работа относится ко второй категории, где модель и метод обучения по своей сути являются интерпретируемыми.
Обучаемые активации. Идея обучаемых активаций в нейронных сетях не нова в машинном обучении. Обучаемые функции активации изучаются дифференцируемым способом [88, 14, 89, 90] или ищутся дискретным способом [91]. Функция активации параметризуется как полиномы [88], сплайны [14, 92, 93], сигмоидальные линейные единицы [89] или нейронные сети [90]. KAN используют B-сплайны для параметризации своих функций активации. Мы также представляем наши предварительные результаты по обучаемым сетям активации (learnable activation networks LAN), свойства которых лежат между KAN и MLP, и их результаты приведены в Приложении B, чтобы сосредоточиться на KAN в основной статье.
Символическая регрессия. Существует множество готовых методов символической регрессии, основанных на генетических алгоритмах (Eureka [94], GPLearn [95], PySR [96]), методах на основе нейронных сетей (EQL [97], OccamNet [98]), методах, вдохновленных физикой (AI Feynman [36, 37]), и методах, основанных на обучении с подкреплением [99]. KAN больше всего похожи на методы на основе нейронных сетей, но отличаются от предыдущих работ тем, что наши функции активации непрерывно изучаются перед символическим привязкой, а не фиксируются вручную [94, 98].
Physics-Informed Neural Networks (PINN) и Physics-Informed Neural Operators (PINO). В подразделе 3.4 мы демонстрируем, что KAN могут заменить парадигму использования MLP для определения потерь PDE при решении PDE. Мы ссылаемся на Deep Ritz Method [100], PINN [38, 39, 101] для решения PDE и Fourier Neural Operator [102], PINO [103, 104, 105], DeepONet [106] для методов обучения операторов, изучающих карту решений. Существует потенциал для замены MLP на KAN во всех вышеупомянутых сетях.
ИИ для математики. Как мы видели в Подразделе 4.3, ИИ недавно был применен к нескольким проблемам в теории узлов, включая определение того, является ли узел неразвязанным (unknot) [107, 108] или ленточным узлом (ribbon) [46], а также предсказание инвариантов узлов и выявление связей между ними [109, 110, 111, 45]. Для обзора приложений науки о данных к наборам данных в математике и теоретической физике см., например, [112, 113], а для идей о том, как получить строгие результаты с помощью методов МО в этих областях, см. [114].
6 Обсуждения
В этом разделе мы обсуждаем ограничения KAN и будущие направления с точки зрения математической основы, алгоритмов и приложений.
Математические аспекты: Хотя мы представили предварительный математический анализ KAN (теорема 2.1), наше математическое понимание их все еще очень ограничено. Теорема о представлении Колмогорова-Арнольда была тщательно изучена в математике, но теорема соответствует KAN с формой , которая является очень ограниченным подклассом KAN. Означает ли наш эмпирический успех с более глубокими KAN что-то фундаментальное в математике? Привлекательная обобщенная теорема Колмогорова-Арнольда могла бы определить «более глубокие» представления Колмогорова-Арнольда за пределами композиций глубины 2 и потенциально связать гладкость функций активации с глубиной. Гипотетически существуют функции, которые не могут быть представлены гладко (глубина 2) в исходных представлениях Колмогорова-Арнольда, но могут быть гладко представлены с глубиной 3 или выше. Можем ли мы использовать это понятие «глубины Колмогорова-Арнольда» для характеристики классов функций?
Алгоритмические аспекты: Мы обсуждаем следующее:
(1) Точность (Accuracy). Множественные варианты в архитектурном проектировании и обучении не полностью исследованы, поэтому альтернативы могут потенциально дополнительно повысить точность. Например, функции активации сплайна могут быть заменены радиальными базисными функциями или другими локальными ядрами. Могут использоваться стратегии адаптивной сетки.
(2) Эффективность. Одна из основных причин, по которой KAN работают медленно, заключается в том, что разные функции активации не могут использовать пакетные вычисления (большие данные через одну и ту же функцию). На самом деле, можно провести интерполяцию между одинаковыми функциями активации (MLP) и разными функциями активации (KAN), сгруппировав функции активации в несколько групп (“многоголовые”), где члены группы совместно используют одну и ту же функцию активации.
(3) Гибрид KAN и MLP. KAN имеют два основных отличия от MLP:
(i) функции активации находятся на ребрах, а не в узлах,
(ii) функции активации являются обучаемыми, а не фиксированными
Какое изменение более существенно для объяснения преимущества KAN? Мы представляем наши предварительные результаты в Приложении B, где мы изучаем модель, которая имеет (ii), т. е. функции активации обучаемы (как KAN), но не (i), т. е. функции активации находятся на узлах (как MLP). Более того, можно также построить другую модель с фиксированными активациями (как MLP), но на ребрах (как KAN).
(4) Адаптивность. Благодаря внутренней локальности базисных функций сплайнов мы можем ввести адаптивность в проектирование и обучение KAN для повышения как точности, так и эффективности: см. идею многоуровневого обучения, например, многосеточные методы, как в [115, 116], или доменно-зависимые базисные функции, например, многомасштабные методы, как в [117].
Аспекты применения: Мы представили некоторые предварительные доказательства того, что KAN более эффективны, чем MLP, в задачах, связанных с наукой, например, подгонка физических уравнений и решение PDE. Мы хотели бы применить KAN для решения уравнений Навье-Стокса, теории функционала плотности или любых других задач, которые можно сформулировать как регрессию или решение PDE. Мы также хотели бы применить KAN к задачам, связанным с машинным обучением, которые потребуют интеграции KAN в текущие архитектуры, например, трансформеры — можно предложить «кансформеры»(«kansformers»), которые заменяют MLP на KAN в трансформерах.
KAN как «языковая модель» для AI + Science: Причина, по которой большие языковые модели так преобразуют мир, заключается в том, что они полезны всем, кто владеет естественным языком. Язык науки — это функции. KAN состоят из интерпретируемых функций, поэтому, когда пользователь смотрит на KAN, это похоже на общение с ним с помощью языка функций.
Цель этого параграфа — продвижение парадигмы ИИ-ученый-сотрудничество (AI-Scientist-Collaboration), а не нашего конкретного инструмента KAN. Так же, как люди используют разные языки для общения, мы ожидаем, что в будущем KAN будут всего лишь одним из языков для AI + Science, хотя KAN будут одним из самых первых языков, которые позволят ИИ и человеку общаться. Однако, благодаря KAN, парадигма ИИ-ученый-сотрудничество никогда не была такой простой и удобной, что заставляет нас переосмыслить парадигму того, как мы хотим подходить к AI + Science: нам нужны ученые ИИ или нам нужен ИИ, который помогает ученым? Внутренняя сложность (полностью автоматизированных) ученых ИИ заключается в том, что трудно сделать человеческие предпочтения количественными, что кодифицировало бы человеческие предпочтения в цели ИИ. Фактически, ученые в разных областях могут по-разному относиться к тому, какие функции просты или интерпретируемы. В результате для ученых более желательно иметь ИИ, который может говорить на научном языке (функциях) и может удобно взаимодействовать с индуктивными предубеждениями отдельных ученых, чтобы адаптироваться к конкретной научной области.
Заключительный вывод: следует ли использовать KAN или MLP?
В настоящее время самым большим узким местом KAN является медленное обучение. KAN обычно в 10 раз медленнее MLP, учитывая то же количество параметров. Мы должны быть честны, что не пытались оптимизировать эффективность KAN, поэтому мы считаем медленное обучение KAN скорее инженерной проблемой, которую необходимо улучшить в будущем, а не фундаментальным ограничением. Если кто-то хочет быстро обучить модель, следует использовать MLP. Однако в других случаях KAN должны быть сопоставимы или лучше MLP, что делает их достойными попытки. Дерево решений на рисунке 6.1 может помочь решить, когда использовать KAN. Короче говоря, если вас волнует интерпретируемость и/или точность, а медленное обучение не является основной проблемой, мы предлагаем попробовать KAN, по крайней мере, для небольших задач AI+Science.
Мы хотели бы поблагодарить Mikail Khona, Tomaso Poggio, Pingchuan Ma, Rui Wang, Di Luo, Sara Beery, Catherine Liang, Yiping Lu, Nicholas H. Nelsen, Nikola Kovachki, Jonathan W. Siegel, Hongkai Zhao, Juncai He, Shi Lab (Humphrey Shi, Steven Walton, Chuanhao Yan) and Matthieu Darcy for fruitful discussion and constructive suggestions. Z.L., F.R., J.H., M.S. and M.T. are supported by IAIFI through NSF grant PHY-2019786.
Работа FR дополнительно поддерживается грантом NSF PHY-2210333 и стартапом от Northeastern University. У.В и Т.Х., поддерживаются грантом NSF DMS-2205590 и Choi Family Gift Fund. S. V. и M. S. выражают благодарность со стороны Многопрофильной исследовательской инициативы университета (MURI) U.S. Office of Naval Research (ONR) по гранту No N00014-20-1-2325 на устойчивые фотонные материалы с топологической защитой высшего порядка.
[1] Simon Haykin. Neural networks: a comprehensive foundation. Prentice Hall PTR, 1994.
[2] George Cybenko. Approximation by superpositions of a sigmoidal function. Mathematics of control, signals and systems, 2(4):303–314, 1989.
[3] Kurt Hornik, Maxwell Stinchcombe, and Halbert White. Multilayer feedforward networks are universal approximators. Neural networks, 2(5):359–366, 1989.
[4] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017.
[5] Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, and Lee Sharkey. Sparse autoencoders find highly interpretable features in language models. arXiv preprint arXiv:2309.08600, 2023.
[6] A.N. Kolmogorov. On the representation of continuous functions of several variables as superpositions of continuous functions of a smaller number of variables. Dokl. Akad. Nauk, 108(2), 1956.
[7] Andrei Nikolaevich Kolmogorov. On the representation of continuous functions of many variables by superposition of continuous functions of one variable and addition. In Doklady Akademii Nauk, volume 114, pages 953–956. Russian Academy of Sciences, 1957.
[8] Jürgen Braun and Michael Griebel. On a constructive proof of kolmogorov’s superposition theorem. Constructive approximation, 30:653–675, 2009.
[9] David A Sprecher and Sorin Draghici. Space-filling curves and kolmogorov superpositionbased neural networks. Neural Networks, 15(1):57–67, 2002.
[10] Mario Köppen. On the training of a kolmogorov network. In Artificial Neural Networks—ICANN 2002: International Conference Madrid, Spain, August 28–30, 2002 Proceedings 12, pages 474–479. Springer, 2002.
[11] Ji-Nan Lin and Rolf Unbehauen. On the realization of a kolmogorov network. Neural Computation, 5(1):18–20, 1993.
[12] Ming-Jun Lai and Zhaiming Shen. The kolmogorov superposition theorem can break the curse of dimensionality when approximating high dimensional functions. arXiv preprint arXiv:2112.09963, 2021.
[13] Pierre-Emmanuel Leni, Yohan D Fougerolle, and Frédéric Truchetet. The kolmogorov spline network for image processing. In Image Processing: Concepts, Methodologies, Tools, and Applications, pages 54–78. IGI Global, 2013.
[14] Daniele Fakhoury, Emanuele Fakhoury, and Hendrik Speleers. Exsplinet: An interpretable and expressive spline-based neural network. Neural Networks, 152:332–346, 2022.
[15] Hadrien Montanelli and Haizhao Yang. Error bounds for deep relu networks using the kolmogorov–arnold superposition theorem. Neural Networks, 129:1–6, 2020.
[16] Juncai He. On the optimal expressive power of relu dnns and its application in approximation with kolmogorov superposition theorem. arXiv preprint arXiv:2308.05509, 2023.
[17] Juncai He, Lin Li, Jinchao Xu, and Chunyue Zheng. Relu deep neural networks and linear finite elements. arXiv preprint arXiv:1807.03973, 2018.
[18] Juncai He and Jinchao Xu. Deep neural networks and finite elements of any order on arbitrary dimensions. arXiv preprint arXiv:2312.14276, 2023.
[19] Tomaso Poggio, Andrzej Banburski, and Qianli Liao. Theoretical issues in deep networks. Proceedings of the National Academy of Sciences, 117(48):30039–30045, 2020.
[20] Federico Girosi and Tomaso Poggio. Representation properties of networks: Kolmogorov’s theorem is irrelevant. Neural Computation, 1(4):465–469, 1989.
[21] Henry W Lin, Max Tegmark, and David Rolnick. Why does deep and cheap learning work so well? Journal of Statistical Physics, 168:1223–1247, 2017.
[22] Hongyi Xu, Funshing Sin, Yufeng Zhu, and Jernej Barbic. Nonlinear material design usingˇ principal stretches. ACM Transactions on Graphics (TOG), 34(4):1–11, 2015.
[23] Carl De Boor. A practical guide to splines, volume 27. springer-verlag New York, 1978.
[24] Utkarsh Sharma and Jared Kaplan. A neural scaling law from the dimension of the data manifold. arXiv preprint arXiv:2004.10802, 2020.
[25] Eric J Michaud, Ziming Liu, and Max Tegmark. Precision machine learning. Entropy, 25(1):175, 2023.
[26] Joel L Horowitz and Enno Mammen. Rate-optimal estimation for a general class of nonparametric regression models with unknown link functions. 2007.
[27] Michael Kohler and Sophie Langer. On the rate of convergence of fully connected deep neural network regression estimates. The Annals of Statistics, 49(4):2231–2249, 2021.
[28] Johannes Schmidt-Hieber. Nonparametric regression using deep neural networks with relu activation function. 2020.
[29] Ronald A DeVore, Ralph Howard, and Charles Micchelli. Optimal nonlinear approximation. Manuscripta mathematica, 63:469–478, 1989.
[30] Ronald A DeVore, George Kyriazis, Dany Leviatan, and Vladimir M Tikhomirov. Wavelet compression and nonlinear n-widths. Adv. Comput. Math., 1(2):197–214, 1993.
[31] Jonathan W Siegel. Sharp lower bounds on the manifold widths of sobolev and besov spaces. arXiv preprint arXiv:2402.04407, 2024.
[32] Dmitry Yarotsky. Error bounds for approximations with deep relu networks. Neural Networks, 94:103–114, 2017.
[33] Peter L Bartlett, Nick Harvey, Christopher Liaw, and Abbas Mehrabian. Nearly-tight vcdimension and pseudodimension bounds for piecewise linear neural networks. Journal of Machine Learning Research, 20(63):1–17, 2019.
[34] Jonathan W Siegel. Optimal approximation rates for deep relu neural networks on sobolev and besov spaces. Journal of Machine Learning Research, 24(357):1–52, 2023.
[35] Yongji Wang and Ching-Yao Lai. Multi-stage neural networks: Function approximator of machine precision. Journal of Computational Physics, page 112865, 2024.
[36] Silviu-Marian Udrescu and Max Tegmark. Ai feynman: A physics-inspired method for symbolic regression. Science Advances, 6(16):eaay2631, 2020.
[37] Silviu-Marian Udrescu, Andrew Tan, Jiahai Feng, Orisvaldo Neto, Tailin Wu, and Max Tegmark. Ai feynman 2.0: Pareto-optimal symbolic regression exploiting graph modularity. Advances in Neural Information Processing Systems, 33:4860–4871, 2020.
[38] Maziar Raissi, Paris Perdikaris, and George E Karniadakis. Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations. Journal of Computational physics, 378:686–707, 2019.
[39] George Em Karniadakis, Ioannis G Kevrekidis, Lu Lu, Paris Perdikaris, Sifan Wang, and Liu Yang. Physics-informed machine learning. Nature Reviews Physics, 3(6):422–440, 2021.
[40] Ronald Kemker, Marc McClure, Angelina Abitino, Tyler Hayes, and Christopher Kanan. Measuring catastrophic forgetting in neural networks. In Proceedings of the AAAI conference on artificial intelligence, volume 32, 2018.
[41] Bryan Kolb and Ian Q Whishaw. Brain plasticity and behavior. Annual review of psychology, 49(1):43–64, 1998.
[42] David Meunier, Renaud Lambiotte, and Edward T Bullmore. Modular and hierarchically modular organization of brain networks. Frontiers in neuroscience, 4:7572, 2010.
[43] James Kirkpatrick, Razvan Pascanu, Neil Rabinowitz, Joel Veness, Guillaume Desjardins, Andrei A Rusu, Kieran Milan, John Quan, Tiago Ramalho, Agnieszka Grabska-Barwinska, et al. Overcoming catastrophic forgetting in neural networks. Proceedings of the national academy of sciences, 114(13):3521–3526, 2017.
[44] Aojun Lu, Tao Feng, Hangjie Yuan, Xiaotian Song, and Yanan Sun. Revisiting neural networks for continual learning: An architectural perspective, 2024.
[45] Alex Davies, Petar Velickoviˇ c, Lars Buesing, Sam Blackwell, Daniel Zheng, Nenad Tomašev,´ Richard Tanburn, Peter Battaglia, Charles Blundell, András Juhász, et al. Advancing mathematics by guiding human intuition with ai. Nature, 600(7887):70–74, 2021.
[46] Sergei Gukov, James Halverson, Ciprian Manolescu, and Fabian Ruehle. Searching for ribbons with machine learning, 2023.
[47] P. Petersen. Riemannian Geometry. Graduate Texts in Mathematics. Springer New York, 2006.
[48] Philip W Anderson. Absence of diffusion in certain random lattices. Physical review, 109(5):1492, 1958.
[49] David J Thouless. A relation between the density of states and range of localization for one dimensional random systems. Journal of Physics C: Solid State Physics, 5(1):77, 1972.
[50] Elihu Abrahams, PW Anderson, DC Licciardello, and TV Ramakrishnan. Scaling theory of localization: Absence of quantum diffusion in two dimensions. Physical Review Letters, 42(10):673, 1979.
[51] Ad Lagendijk, Bart van Tiggelen, and Diederik S Wiersma. Fifty years of anderson localization. Physics today, 62(8):24–29, 2009.
[52] Mordechai Segev, Yaron Silberberg, and Demetrios N Christodoulides. Anderson localization of light. Nature Photonics, 7(3):197–204, 2013.
[53] Z Valy Vardeny, Ajay Nahata, and Amit Agrawal. Optics of photonic quasicrystals. Nature photonics, 7(3):177–187, 2013.
[54] Sajeev John. Strong localization of photons in certain disordered dielectric superlattices. Physical review letters, 58(23):2486, 1987.
[55] Yoav Lahini, Rami Pugatch, Francesca Pozzi, Marc Sorel, Roberto Morandotti, Nir Davidson, and Yaron Silberberg. Observation of a localization transition in quasiperiodic photonic lattices. Physical review letters, 103(1):013901, 2009.
[56] Sachin Vaidya, Christina Jörg, Kyle Linn, Megan Goh, and Mikael C Rechtsman. Reentrant delocalization transition in one-dimensional photonic quasicrystals. Physical Review Research, 5(3):033170, 2023.
[57] Wojciech De Roeck, Francois Huveneers, Markus Müller, and Mauro Schiulaz. Absence of many-body mobility edges. Physical Review B, 93(1):014203, 2016.
[58] Xiaopeng Li, Sriram Ganeshan, JH Pixley, and S Das Sarma. Many-body localization and quantum nonergodicity in a model with a single-particle mobility edge. Physical review letters, 115(18):186601, 2015.
[59] Fangzhao Alex An, Karmela Padavic, Eric J Meier, Suraj Hegde, Sriram Ganeshan, JH Pixley,´ Smitha Vishveshwara, and Bryce Gadway. Interactions and mobility edges: Observing the generalized aubry-andré model. Physical review letters, 126(4):040603, 2021.
[60] J Biddle and S Das Sarma. Predicted mobility edges in one-dimensional incommensurate optical lattices: An exactly solvable model of anderson localization. Physical review letters, 104(7):070601, 2010.
[61] Alexander Duthie, Sthitadhi Roy, and David E Logan. Self-consistent theory of mobility edges in quasiperiodic chains. Physical Review B, 103(6):L060201, 2021.
[62] Sriram Ganeshan, JH Pixley, and S Das Sarma. Nearest neighbor tight binding models with an exact mobility edge in one dimension. Physical review letters, 114(14):146601, 2015.
[63] Yucheng Wang, Xu Xia, Long Zhang, Hepeng Yao, Shu Chen, Jiangong You, Qi Zhou, and Xiong-Jun Liu. One-dimensional quasiperiodic mosaic lattice with exact mobility edges. Physical Review Letters, 125(19):196604, 2020.
[64] Yucheng Wang, Xu Xia, Yongjian Wang, Zuohuan Zheng, and Xiong-Jun Liu. Duality between two generalized aubry-andré models with exact mobility edges. Physical Review B, 103(17):174205, 2021.
[65] Xin-Chi Zhou, Yongjian Wang, Ting-Fung Jeffrey Poon, Qi Zhou, and Xiong-Jun Liu. Exact new mobility edges between critical and localized states. Physical Review Letters, 131(17):176401, 2023.
[66] Tomaso Poggio. How deep sparse networks avoid the curse of dimensionality: Efficiently computable functions are compositionally sparse. CBMM Memo, 10:2022, 2022.
[67] Johannes Schmidt-Hieber. The kolmogorov–arnold representation theorem revisited. Neural networks, 137:119–126, 2021.
[68] Aysu Ismayilova and Vugar E Ismailov. On the kolmogorov neural networks. Neural Networks, page 106333, 2024.
[69] Michael Poluektov and Andrew Polar. A new iterative method for construction of the kolmogorov-arnold representation. arXiv preprint arXiv:2305.08194, 2023.
[70] Rishabh Agarwal, Levi Melnick, Nicholas Frosst, Xuezhou Zhang, Ben Lengerich, Rich Caruana, and Geoffrey E Hinton. Neural additive models: Interpretable machine learning with neural nets. Advances in neural information processing systems, 34:4699–4711, 2021.
[71] Manzil Zaheer, Satwik Kottur, Siamak Ravanbakhsh, Barnabas Poczos, Russ R Salakhutdinov, and Alexander J Smola. Deep sets. Advances in neural information processing systems, 30, 2017.
[72] Huan Song, Jayaraman J Thiagarajan, Prasanna Sattigeri, and Andreas Spanias. Optimizing kernel machines using deep learning. IEEE transactions on neural networks and learning systems, 29(11):5528–5540, 2018.
[73] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.
[74] Tom Henighan, Jared Kaplan, Mor Katz, Mark Chen, Christopher Hesse, Jacob Jackson, Heewoo Jun, Tom B Brown, Prafulla Dhariwal, Scott Gray, et al. Scaling laws for autoregressive generative modeling. arXiv preprint arXiv:2010.14701, 2020.
[75] Mitchell A Gordon, Kevin Duh, and Jared Kaplan. Data and parameter scaling laws for neural machine translation. In ACL Rolling Review - May 2021, 2021.
[76] Joel Hestness, Sharan Narang, Newsha Ardalani, Gregory Diamos, Heewoo Jun, Hassan Kianinejad, Md Mostofa Ali Patwary, Yang Yang, and Yanqi Zhou. Deep learning scaling is predictable, empirically. arXiv preprint arXiv:1712.00409, 2017.
[77] Yasaman Bahri, Ethan Dyer, Jared Kaplan, Jaehoon Lee, and Utkarsh Sharma. Explaining neural scaling laws. arXiv preprint arXiv:2102.06701, 2021.
[78] Eric J Michaud, Ziming Liu, Uzay Girit, and Max Tegmark. The quantization model of neural scaling. In Thirty-seventh Conference on Neural Information Processing Systems, 2023.
[79] Jinyeop Song, Ziming Liu, Max Tegmark, and Jeff Gore. A resource model for neural scaling law. arXiv preprint arXiv:2402.05164, 2024.
[80] Catherine Olsson, Nelson Elhage, Neel Nanda, Nicholas Joseph, Nova DasSarma, Tom Henighan, Ben Mann, Amanda Askell, Yuntao Bai, Anna Chen, et al. In-context learning and induction heads. arXiv preprint arXiv:2209.11895, 2022.
[81] Kevin Meng, David Bau, Alex Andonian, and Yonatan Belinkov. Locating and editing factual associations in gpt. Advances in Neural Information Processing Systems, 35:17359–17372, 2022.
[82] Kevin Ro Wang, Alexandre Variengien, Arthur Conmy, Buck Shlegeris, and Jacob Steinhardt. Interpretability in the wild: a circuit for indirect object identification in GPT-2 small. In The Eleventh International Conference on Learning Representations, 2023.
[83] Nelson Elhage, Tristan Hume, Catherine Olsson, Nicholas Schiefer, Tom Henighan, Shauna Kravec, Zac Hatfield-Dodds, Robert Lasenby, Dawn Drain, Carol Chen, et al. Toy models of superposition. arXiv preprint arXiv:2209.10652, 2022.
[84] Neel Nanda, Lawrence Chan, Tom Lieberum, Jess Smith, and Jacob Steinhardt. Progress measures for grokking via mechanistic interpretability. In The Eleventh International Conference on Learning Representations, 2023.
[85] Ziqian Zhong, Ziming Liu, Max Tegmark, and Jacob Andreas. The clock and the pizza: Two stories in mechanistic explanation of neural networks. In Thirty-seventh Conference on Neural Information Processing Systems, 2023.
[86] Ziming Liu, Eric Gan, and Max Tegmark. Seeing is believing: Brain-inspired modular training for mechanistic interpretability. Entropy, 26(1):41, 2023.
[87] Nelson Elhage, Tristan Hume, Catherine Olsson, Neel Nanda, Tom Henighan, Scott Johnston, Sheer ElShowk, Nicholas Joseph, Nova DasSarma, Ben Mann, Danny Hernandez, Amanda Askell, Kamal Ndousse, Andy Jones, Dawn Drain, Anna Chen, Yuntao Bai, Deep Ganguli, Liane Lovitt, Zac Hatfield-Dodds, Jackson Kernion, Tom Conerly, Shauna Kravec, Stanislav Fort, Saurav Kadavath, Josh Jacobson, Eli Tran-Johnson, Jared Kaplan, Jack Clark, Tom Brown, Sam McCandlish, Dario Amodei, and Christopher Olah. Softmax linear units. Transformer Circuits Thread, 2022. https://transformer-circuits.pub/2022/solu/index.html.
[88] Mohit Goyal, Rajan Goyal, and Brejesh Lall. Learning activation functions: A new paradigm for understanding neural networks. arXiv preprint arXiv:1906.09529, 2019.
[89] Prajit Ramachandran, Barret Zoph, and Quoc V Le. Searching for activation functions. arXiv preprint arXiv:1710.05941, 2017.
[90] Shijun Zhang, Zuowei Shen, and Haizhao Yang. Neural network architecture beyond width and depth. Advances in Neural Information Processing Systems, 35:5669–5681, 2022.
[91] Garrett Bingham and Risto Miikkulainen. Discovering parametric activation functions. Neural Networks, 148:48–65, 2022.
[92] Pakshal Bohra, Joaquim Campos, Harshit Gupta, Shayan Aziznejad, and Michael Unser. Learning activation functions in deep (spline) neural networks. IEEE Open Journal of Signal Processing, 1:295–309, 2020.
[93] Shayan Aziznejad and Michael Unser. Deep spline networks with control of lipschitz regularity. In ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 3242–3246. IEEE, 2019.
[94] Renáta Dubcáková. Eureqa: software review. Genetic Programming and Evolvable Machines, 12:173–178, 2011.
[95] Gplearn. https://github.com/trevorstephens/gplearn. Accessed: 2024-04-19.
[96] Miles Cranmer. Interpretable machine learning for science with pysr and symbolicregression. jl. arXiv preprint arXiv:2305.01582, 2023.
[97] Georg Martius and Christoph H Lampert. Extrapolation and learning equations. arXiv preprint arXiv:1610.02995, 2016.
[98] Owen Dugan, Rumen Dangovski, Allan Costa, Samuel Kim, Pawan Goyal, Joseph Jacobson, and Marin Soljaciˇ c. Occamnet: A fast neural model for symbolic regression at scale.´ arXiv preprint arXiv:2007.10784, 2020.
[99] Terrell N. Mundhenk, Mikel Landajuela, Ruben Glatt, Claudio P. Santiago, Daniel faissol, and Brenden K. Petersen. Symbolic regression via deep reinforcement learning enhanced genetic programming seeding. In A. Beygelzimer, Y. Dauphin, P. Liang, and J. Wortman Vaughan, editors, Advances in Neural Information Processing Systems, 2021.
[100] Bing Yu et al. The deep ritz method: a deep learning-based numerical algorithm for solving variational problems. Communications in Mathematics and Statistics, 6(1):1–12, 2018.
[101] Junwoo Cho, Seungtae Nam, Hyunmo Yang, Seok-Bae Yun, Youngjoon Hong, and Eunbyung Park. Separable physics-informed neural networks. Advances in Neural Information Processing Systems, 36, 2024.
[102] Zongyi Li, Nikola Kovachki, Kamyar Azizzadenesheli, Burigede Liu, Kaushik Bhattacharya, Andrew Stuart, and Anima Anandkumar. Fourier neural operator for parametric partial differential equations. arXiv preprint arXiv:2010.08895, 2020.
[103] Zongyi Li, Hongkai Zheng, Nikola Kovachki, David Jin, Haoxuan Chen, Burigede Liu, Kamyar Azizzadenesheli, and Anima Anandkumar. Physics-informed neural operator for learning partial differential equations. ACM/JMS Journal of Data Science, 2021.
[104] Nikola Kovachki, Zongyi Li, Burigede Liu, Kamyar Azizzadenesheli, Kaushik Bhattacharya, Andrew Stuart, and Anima Anandkumar. Neural operator: Learning maps between function spaces with applications to pdes. Journal of Machine Learning Research, 24(89):1–97, 2023.
[105] Haydn Maust, Zongyi Li, Yixuan Wang, Daniel Leibovici, Oscar Bruno, Thomas Hou, and Anima Anandkumar. Fourier continuation for exact derivative computation in physicsinformed neural operators. arXiv preprint arXiv:2211.15960, 2022.
[106] Lu Lu, Pengzhan Jin, Guofei Pang, Zhongqiang Zhang, and George Em Karniadakis. Learning nonlinear operators via deeponet based on the universal approximation theorem of operators. Nature machine intelligence, 3(3):218–229, 2021.
[107] Sergei Gukov, James Halverson, Fabian Ruehle, and Piotr Sułkowski. Learning to Unknot. Mach. Learn. Sci. Tech., 2(2):025035, 2021.
[108] L. H. Kauffman, N. E. Russkikh, and I. A. Taimanov. Rectangular knot diagrams classification with deep learning, 2020.
[109] Mark C Hughes. A neural network approach to predicting and computing knot invariants.
Journal of Knot Theory and Its Ramifications, 29(03):2050005, 2020.
[110] Jessica Craven, Vishnu Jejjala, and Arjun Kar. Disentangling a deep learned volume formula. JHEP, 06:040, 2021.
[111] Jessica Craven, Mark Hughes, Vishnu Jejjala, and Arjun Kar. Illuminating new and known relations between knot invariants. 11 2022.
[112] Fabian Ruehle. Data science applications to string theory. Phys. Rept., 839:1–117, 2020.
[113] Y.H. He. Machine Learning in Pure Mathematics and Theoretical Physics. G - Reference,Information and Interdisciplinary Subjects Series. World Scientific, 2023.
[114] Sergei Gukov, James Halverson, and Fabian Ruehle. Rigor with machine learning from field theory to the poincaréconjecture. Nature Reviews Physics, 2024.
[115] Shumao Zhang, Pengchuan Zhang, and Thomas Y Hou. Multiscale invertible generative networks for high-dimensional bayesian inference. In International Conference on Machine Learning, pages 12632–12641. PMLR, 2021.
[116] Jinchao Xu and Ludmil Zikatanov. Algebraic multigrid methods. Acta Numerica, 26:591– 721, 2017.
[117] Yifan Chen, Thomas Y Hou, and Yixuan Wang. Exponentially convergent multiscale finite element method. Communications on Applied Mathematics and Computation, pages 1–17, 2023.
[118] Vincent Sitzmann, Julien Martel, Alexander Bergman, David Lindell, and Gordon Wetzstein. Implicit neural representations with periodic activation functions. Advances in neural information processing systems, 33:7462–7473, 2020.
Приложение
A Функциональные возможности KAN
Таблица 6 содержит общие функции, которые могут оказаться полезными для пользователей.
B Обучаемые сети активации (LAN)
B.1 Архитектура
Помимо KAN, мы также предложили другой тип обучаемых сетей активации (learnable activation networks LAN), которые почти являются MLP, но с обучаемыми функциями активации, параметризованными как сплайны. KAN имеют два основных изменения по сравнению со стандартными MLP: (1) функции активации становятся обучаемыми, а не фиксированными; (2) функции активации размещаются на ребрах, а не в узлах. Чтобы разделить эти два фактора, мы также предлагаем обучаемые сети активации (LAN), которые имеют только обучаемые активации, но все еще в узлах, как показано на рисунке B.1.
Для LAN с шириной , глубиной L и числом точек сетки число параметров равно , где — число параметров для весовых матриц, а — число параметров для активаций сплайнов, что приводит к небольшим накладным расходам в дополнение к MLP, поскольку обычно , поэтому . LAN похожи на MLP, поэтому их можно инициализировать из предварительно обученных MLP и настраивать, разрешая обучаемые функции активации. Примером может служить использование LAN для улучшения SIREN, представленное в разделе B.3.
Сравнение LAN и KAN. Плюсы LAN
(1) LAN концептуально проще KAN. Они ближе к стандартным MLP (единственное изменение — функции активации становятся обучаемыми).
(2) LAN масштабируются лучше, чем KAN. LAN/KAN имеют обучаемые функции активации на узлах/ребрах соответственно. Таким образом, параметры активации в LAN/KAN масштабируются как , где — ширина модели.
Минусы локальных сетей:
(1) Локальные сети кажутся менее интерпретируемыми (матрицы весов трудно интерпретировать, как и в многослойных перцептронах);
(2) LAN также кажутся менее точными, чем KAN, но все еще более точными, чем MLP. Как и KAN, LAN также допускают расширение сетки, если функции активации LAN параметризованы сплайнами.
B.2 Результаты интерпретируемости локальной сети
Мы представляем предварительные результаты интерпретируемости LAN на рисунке B.2. С теми же примерами на рисунке 4.1, для которых KAN прекрасно интерпретируются, LAN кажутся гораздо менее интерпретируемыми из-за существования весовых матриц.
Во-первых, весовые матрицы не так легко интерпретируемы, чем обучаемые функции активации. Во-вторых, весовые матрицы привносят слишком много степеней свободы, делая обучаемые функции активации слишком неограниченными. Наши предварительные результаты с LAN, по-видимому, подразумевают, что избавление от линейных весовых матриц (путем наличия обучаемых активаций на ребрах, как KAN) необходимо для интерпретируемости.
B.3 Подгонка изображений (LAN)
Неявные нейронные представления рассматривают изображения как двумерные функции , где значение пикселя является функцией двух координат пикселя и . Для сжатия изображения такое неявное нейронное представление (- нейронная сеть) может достичь впечатляющего сжатия параметров, сохраняя при этом почти исходное качество изображения. SIREN [118] предложил использовать MLP с периодическими функциями активации для соответствия функции . Естественно рассмотреть другие функции активации, которые разрешены в локальных сетях. Однако, поскольку мы инициализируем активации локальной сети так, чтобы они были плавными, а SIREN требует высокочастотных функций, локальная сеть работает медленно. Обратите внимание, что каждая функция активации в локальных сетях представляет собой сумму базовой функции и функции сплайна, т. е. , мы задаем синусоидальными функциями,
аналогично настройке, что и в SIREN, но пусть будет обучаемым. Как для MLP, так и для LAN форма имеет вид [2,128,128,128,128,128,1].
Мы обучаем их с помощью оптимизатора Adam, размер batch4096, для 5000 шагов со скоростью обучения 10−3 и 5000 шагов со скоростью обучения 10−4. Как показано на рисунке B.3, LAN (оранжевый) может достичь более высокого PSNR, чем MLP (синий) из-за гибкости LAN для тонкой настройки функций активации. Мы показываем, что также возможно инициализировать LAN из MLP и дополнительно тонко настроить LAN (зеленый) для лучшего PSNR. Мы выбрали = 5 в наших экспериментах, поэтому дополнительное увеличение параметра составляет примерно по сравнению с исходными параметрами.
C Зависимость от гиперпараметров
Мы показываем влияние гиперпараметров на случай на рисунке C.1. Чтобы получить интерпретируемый график, мы хотим, чтобы число активных функций активации было как можно меньше (в идеале 3).
(1) Нам нужен штраф энтропии, чтобы уменьшить количество активных функций активации. Без штрафа энтропии будет много дублирующих функций.
(2) Результаты могут зависеть от random seed. С некоторыми неудачными seed обрезанная сеть может быть больше, чем нужно.
(3) Общая сила штрафа эффективно контролирует разреженность.
(4) Число сетки G также имеет тонкое влияние на интерпретируемость. Когда слишком мало, поскольку каждая из функций активации не очень выразительна, сеть имеет тенденцию использовать стратегию ансамблирования, что затрудняет интерпретацию.
(5) Кусочно-полиномиальный порядок имеет только тонкое влияние на интерпретируемость. Однако он ведет себя немного как random seed, которые не демонстрируют никакой видимой закономерности в этом игрушечном примере.
Мы приводим дополнительные результаты по набору данных Фейнмана (раздел 3.3). На рисунке D.1 показаны границы Парето KAN и MLP для каждого набора данных Фейнмана. На рисунках D.3 и D.2 визуализированы минимальные KAN (при ограничении теста RMSE < 10−2) и лучшие KAN (с наименьшими потерями теста RMSE) для каждой задачи подгонки уравнения Фейнмана.
Для задач PDE и регрессии, когда мы выбираем данные обучения на равномерных сетках, мы наблюдаем внезапное увеличение потерь обучения (т. е. внезапное падение производительности), когда размер сетки обновляется до большого уровня, сопоставимого с различными точками обучения в одном пространственном направлении. Это может быть связано с реализацией B-сплайна в более высоких измерениях и требует дальнейшего изучения.
Мы включили больше результатов в набор данных специальной функции (раздел 3.2). Рисунки F.2 и F.1 визуализируют минимальные KAN (при ограничении теста RMSE < 10−2) и лучшие KAN (с наименьшей потерей RMSE теста) для каждой задачи подгонки специальной функции.
В заключении в статье представлены рисунки
D.2: Best Feynman KANs
D.3: Minimal Feynman KANs
F.1: Best special KANs
F.2: Minimal special KANs
представляющие собой графики KAN по различным наборам данных, которые целесообразно изучить в оригинальной статье (всего рисунков 87).