С.Б. Пшеничников
В статье изложен новый математический аппарат вербальных вычислений в NLP (обработке естественного языка). Слова погружаются не в действительное векторное пространство, а в алгебру предельно разреженных матричных единиц. Вычисления становятся доказательными и прозрачными. На примере показаны развилки в вычислениях, которые остаются незамеченными при использовании традиционных подходов, а результат при этом может быть неожиданным.
Использование IT в обработке естественного языка (Natural Language Processing, NLP) требует стандартизации текстов, например, токенизации или лемматизации. После этого можно пробовать применять математику, поскольку она является высшей формой стандартизации и превращает исследуемые объекты в идеальные, например, таблицы данных в матрицы элементов. Только на языке матриц можно искать общие закономерности данных (чисел и текстов).
Если текст превращается в числа, то в NLP это сначала натуральные числа для нумерации слов, которые затем погружаются в действительное векторное пространство.
Возможно, следует не торопиться это делать, а придумать новый вид чисел более пригодный для NLP, чем числа для исследования физических явлений. Такими являются матричные гипербинарные числа. Гипербинарные числа - один из видов гиперкомплексных чисел.
Для гипербинарных чисел существует своя арифметика и если к ней привыкнуть, то она покажется привычнее и проще пифагорейской арифметики.
В системах поддержки принятия решений (DSS) текстами являются оценочные суждения и пронумерованная шкала вербальных оценок. Далее (как и в NLP) номера превращаются в векторы действительных чисел и используются как наборы коэффициентов средних арифметических взвешенных.
Числа перемешиваются и из итогового значения результата невозможно восстановить слагаемые и сомножители тактов вычислений. Эмбеддинг в действительные векторы необратим. Результаты нельзя объяснить, методы не являются доказательными (evidence-based).
Отсутствие доказательности приводит к невозможности исследования решения. Если бы решение было получено в аналитическом виде, то можно было бы наблюдать все развилки вычислений, а текст решения находить из составленных (например, вербальных) уравнений. На популярном в DSS примере далее будет показано, как найти в вычислениях место, ответственное за отсутствие единственного решения.
Существует возможность представлять слова и темы текстов не действительными векторами, а матричными единицами (предельно разреженными матрицами), при этом вычисления с ними можно м нужно производить в символьном виде (Computer Algebra System, CAS).
Это возможно, поскольку для матричных единиц из-за предельной разреженности существуют соотношения, позволяющие производить алгебраические операции с ними без использования явного вида матриц. Матричные единицы как представления слов не перемешиваются при символьных вербальных вычислениях (Verbal Calculations, VC), все промежуточные результаты можно декодировать обратно в слова естественного языка, а результат объяснить, доказать пользователю и ЛПР.
1. Что предлагается
Слова текста целесообразно заменить предельно разреженными квадратными бинарными матрицами. Это матричные единицы. Все их элементы кроме одного нулевые. Единица находится на пересечении строки и столбца, на которые указывают два индекса матричной единицы. Первый обозначает номер обозначаемого слова в тексте, второй – номер слова в словаре.
Словарь – это исходный текст с удаленными повторами слов.
Тогда текст – это сумма матричных единиц. Слова и фрагменты такого матричного текста (как матрицы) можно складывать, умножать и делить с остатком подобно натуральным числам.
Операция сложения может выводить результат сложения из множества гипербинарных чисел. Элементами матриц могут стать натуральные числа, а для текстов это означает, что на одном месте (номере слова) может находиться несколько слов. Но сложение гипербинарных чисел так переопределяется [1 , стр. 114], что проблема исчезает. Для математики такой прием обычен. При делении целых чисел операция деления определяется как деление с остатком. Тогда результат деления целых чисел всегда является целым числом.
Операция вычитания также выводит множество матричных единиц из множества бинарных чисел подобно тому, как вычитания натуральных чисел превращают их в целые числа. Однако операцию вычитания можно так определить, что и эта проблема исчезает, подобно сложению гипербинарных чисел.
Матричные обобщения бинарных чисел 0 и 1 называются гипербинарными числами.
У матричных единиц имеется уникальное свойство, являющееся следствием их предельной ненулевой разреженности. Для совершения с матричными единицами арифметических операций не требуется явно представлять их матрицами. Для выполнения операций достаточно знать индексы матричных единиц. Существует определяющее соотношение (общая формула) для произведений матричных единиц. Результат произведения зависит только от индексов. Поэтому разреженность здесь не является обременением для вычислений, записи и хранения гипербинарных чисел.
С гипербинарными числами можно совершать алгебраические операции. Но если явно не использовать матричное представление, а производить символьные вычисления методами CAS (computer algebra system), то все промежуточные результаты вычислений прозрачны и верифицируемы.
Матричные обобщения комплексных чисел называются гиперкомплексными числами. Отцом-основателем их является У. Гамильтон, президент Ирландской академии и член-корреспондент Петербургской академии. Тогда членкоры-заочники отличались от академиков только формой соучастия – работали удаленно по переписке.
Гамильтон после party в 1843 году придумал кватернионы – первые гиперкомплексные числа. Анри Пуанкаре сравнивал это открытие в арифметике с революцией Лобачевского в геометрии.
Здесь используется один их многих видов гиперкомплексных чисел – гипербинарные числа, которые можно изобразить на плоскости, если под их координатами считать натуральные числа – пару индексов матричных единиц. Такой способ графического представления восходит к Исааку Ньютону, который представлял на плоскости степени слагаемых-мономов в полиномах от двух переменных (многоугольники Ньютона). Для матричных текстов-полиномов один индекс – это номер слова в тексте, второй – в словаре.
Словари матричных текстов – это суммы матричных единиц (мономов) с одинаковыми индексами. Единицы находятся на диагонали. Каждая такая матричная единица по своим алгебраическим свойствам является проектором. Сумма всех проекторов (слов словаря текста) является единичной матрицей.
В дальнейшем под словом, текстом и словарем понимаются множества матричных единиц.
Умножение гипербинарных чисел (слов и фрагментов текста) бывает слева и справа, поскольку они являются полноправными матрицами. Результаты умножения при этом получаются различными. Умножение некоммутативно (неперестановочно), в отличие от сложения.
У текста имеется два словаря. Левый и правый. Левый словарь – это сумма матричных единиц с одинаковыми первыми индексами. Правый – с одинаковыми вторыми индексами.
Левый словарь – это сумма всех диагональных матричных единиц – у них единица находится на главной диагонали. Их первые индексы – это номера всех слов текста, включая повторы. Правый словарь - сумма всех диагональных матричных единиц со вторыми индексами – это номера всех слов словаря.
Левый и правый словари – это единичные матрицы одинаковой размерности. При умножении слева и справа на эти словари текст не меняется.
Но если текст умножается на фрагменты словарей (это сумма проекторов) слева и справа, то текст преобразуется. Фрагмент правого словаря удаляет из текста слова, отсутствующие в этом фрагменте словаря. Фрагмент левого - сокращает текст по объему, создавая текстообразующие фрагменты.
Фрагменты левого и правого словаря ответственны за вычисление устойчивых n-грамм текста и определение ключевого понятия VC – вербального среднего.
Если одновременно умножить текст слева и справа на соответствующие фрагменты левого и правого словаря, то от текста останутся повторы n-грамм.
Фрагмент левого словаря формирует порядок слов в n-грамме и их расположение в тексте. Фрагмент правого словаря ответственен за состав слов в n-грамме. Составлением n-граммы формулируется запрос к поиску ее в тексте. Алгоритм поиска состоит в сопоставлении n-грамме двух (левого и правого) словарей и умножении их на набор текстов. Явного представления слов матрицами не требуется. Достаточно лишь определяющего соотношения произведения матричных единиц.
При произведении словарей отличными от нуля будут только матричные единицы с одинаковыми индексами. Это означает, что у этих словарей имеется общий фрагмент (общий подсловарь) или, что то же самое, – тексты, имеющие общие подсловари, имеют одинаковые слова.
Если два текста справа умножить на произведение их правых словарей и сложить результаты, то это будет текстом вербального среднего двух текстов. Действительно, при умножении правых словарей останется общий подсловарь (проектор по своим алгебраическим свойствам). При умножении справа этого подсловаря на каждый текст останутся только общие слова. Сумма их принадлежит каждому исходному тексту и является их средним (общим) текстом.
Если у текстов отсутствуют общие слова, то их вербальное среднее нулевое.
Понятие вербального среднего применимо к любому набору текстов и их фрагментов.
Как уже упоминалось выше, Исаак Ньютон в 1649 году изобразил на плоскости полиномы от двух переменных. Точкой на плоскости x, y изображались степени переменных x, y полиномов. Сами полиномы получились ломаными на этой плоскости с координатами – натуральными числами.
Оказалось, что эти ломаные можно превратить в выпуклые многоугольниками и с их помощью находить приближенные решения систем полиномиальных уравнений, даже без учета коэффициентов у мономов.
Для многоугольников Ньютона существует развитая теория (Н.Г. Чеботарев, 1943 г.). С выпуклыми многоугольниками можно наглядно совершать все алгебраические операции. Заманчиво было бы геометрически складывать, умножать и делить тексты, решая задачи их классификации и категоризации.
Многоугольники Ньютона идеально подходят для матричных текстов. Если индексы матричного слова представлять координатами точки (натуральными числами) на плоскости, то матричные тексты, как полиномы у Ньютона, будут ломаными на этой плоскости.
Вербальное среднее вполне оправдывает свое название. На плоскости с натуральными координатами оно располагается как ломаная между текстами, относительно которых вычисляется приведенным выше способом. Это следует из того, что вербальное среднее получается умножением текста на проектор. Тогда координаты (индексы) слова находятся внутри координатной области, где располагаются слова всего текста.
Алгебраически вербальное среднее является общим делителем текстов или в терминологии NLP (ChatGPT) - темой. На плоскости Ньютона матричные слова, тексты и их общие темы (каталоги) наглядно изображаются геометрически.
Представлять тексты только суммами матричных слов недостаточно. Требуется в пару к слову добавить его контекст.
Согласно дистрибутивной гипотезе, лингвистические единицы, встречающиеся в схожих контекстах, имеют близкие значения (смысл). Следовательно, образом (представлением) лингвистической единицы (слов и их сочетаний) является пара («слово», «контекст) или в привычной форме – (контекст)текст.
Текст – это упорядоченное сочетание слов. Если слово понимать как пару «(контекст)слово», то текст – это упорядоченные пары слов и их контекстов. При геометрическом представлении Ньютона это означает, что плоскости текстов из слов соответствует двойственная (дуальная, сопряженная) плоскость контекстов этих слов.
Обобщением дистрибутивной гипотезы является гипотеза об идеальном тексте для пар «(контекст)слово»:
Конкатенация контекстов слов идеального текста и является этим идеальным текстом, а контексты такие, чтобы их конкатенация составляла сам идеальный текст.
Гипотеза об идеальном тексте может быть эскизом технического требования к доказательной машинной генерации текста.
В алгебре текста слово дополняется его фантомным множителем, который является контекстом слова. Когда в матричном тексте складываются слова, складываются и их фантомные множители.
При сложении результирующим фантомным множителем может быть как среднее вербальное (пересечение контекстов), так и дополнение контекста. Когда для двух текстов вычисляется среднее вербальное (пересечение) имеется еще остаток-дополнение (как при делении целых чисел).
Остатки деления текстов имеют смысл отклонения набора текстов от их вербального среднего и похожи на вычеты сравнений целых чисел.
При генерации текста результатом может быть как пересечение контекстов, так и дополнение – это зависит от заданных кратких содержаний (названия, аннотация; набора ключевых слов и их контекстов, упорядоченных по важности).
Левые словари формируют стандартное (привычное) изложение текста по форме, облегчающей понимание содержания текста.
Подсловари правого словаря состоящие из служебных слов позволяют выбирать способы объединения, пересечения и дополнения контекстов (фантомных множителей). Например, это соединительные, противительные, разделительные союзы.
Результирующий контекст следующего слова должен быть согласован с заданными краткими содержаниями текста. Инструментом согласования является операция деления с остатком краткого содержания и контекста следующего слова.
Двойственной к словам плоскостью Ньютона в алгебре текста является плоскость фантомных множителей к этим словам.
Датасетом для алгебраической генерации текста являются пары (контекст)слово. Возможно, полезным для создания пар может стать ChatGPT в качестве предварительной разметки корпуса языка как толкового словаря.
Концепция важности слов как частотности n-грамм требует уточнения. Возможно, ее необходимо дополнить согласованностью контекстов слов в n-граммах.
Контексты слов в свою очередь состоят из слов, которые по дистрибутивной гипотезе зависят от своих контекстов – фантомных множителей второго уровня и так далее до любой глубины тонкой настройки идеального текста соответствующего уровня. В алгебре текста уточненные контексты соответствующих уровней – аналог глубокого обучения в NLP.
Два направления DSS (Decision Support System) или иначе система поддержки и принятия решений (СППР) и NLP (Natural Language Processing) похожи по используемым вычислительным методам и имеют общие проблемы.
В обоих случаях в основе имеются словари оценок, цели, критериев, альтернатив (DSS) и словари текстов (NLP). Производится «эмбеддинг» слов в натуральные числа (нумерация), а затем - в действительные числа. Вычисляются множественные наборы весовых коэффициентов для послойного вычисления средневзвешенных оценок, обратные вычисления ошибок – это несогласованности матриц парных сравнений в DSS или невязки при обучении алгоритма нейронной сети в NLP.
Имеется и общая проблема в DSS и NLP - невозможность объяснить как получен результат, обосновать его и проверить на оптимальность или глобальность, если решение не единственное, бессмысленное или парадоксальное, как на практике часто и бывает для заказчика (ЛПР) или владельца чат-бота. Результат невозможно доказать (объяснить).
Успешные по эффективности примеры DSS - метод анализа иерархий (МАИ) Т. Саати, а NLP – ChatGPT.
На входе DSS – текстовые датасеты оценочных суждений в форме матриц парных сравнений альтернатив (вариантов решений) и критериев оценок (свойств). На выходе DSS – упорядоченные по важности (предпочтительности) тексты решений в соответствии с заданными критериями оценки.
Вычисляются весовые коэффициенты для наборов средневзвешенных оценок альтернатив по наборам разноважных критериев. В вычислительном блоке DSS – послойный расчёт наборов весовых коэффициентов средних оценок. Они определяются при сравнении альтернатив с альтернативами в смысле отдельного критерия и критериев друг с другом. На заключительном этапе производится синтез (свод) средних оценок альтернатив и критериев в соответствии с целью задачи.
Но в МАИ вербальная шкала оценок обозначается натуральными числами как ординалами (порядковыми числами), но затем ординалы вдруг превращаются в кардинальные числа и с ними совершаются арифметические операции. Возникающие проблемы, связанные с несогласованностью датасетов (матриц парных сравнений), разрешаются с помощью множества эвристических приемов.
Языковую модель (LM) ChatGPT (послойные наборы весовых коэффициентов для средних) невозможно дообучить без вычисления опять с нуля LM.
В предлагаемом подходе используются только натуральные числа. Причем только как порядковые числа (ординалы). С ними не совершаются арифметические операции. Кардинальными числами здесь являются матричные обобщения бинарных чисел 0 и 1, которыми обозначаются слова. Такие матричные слова можно складывать в тексты и делить их с остатком друг на друга (подобно целым числам). При этом слова остаются гипербинарными (матричными бинарными) числами.
Также новацией к контекстному датасету может стать упорядочение по важности слов в контекстах. Пары (контекст)слово могут быть упорядочены по важности методом доказательного DSS, излагаемого ниже.
Такое упорядочение основывается на матрицах парных сравнений слов в смысле их контекстов и контекстов в смысле слов. В этих двух видах сравнений матрицы парных сравнений имеют наименования смысла – контекста или слова.
Заполнение матриц парных сравнений, как смысловая разметка важности, может быть автоматической или экспертной. Автоматическая разметка важности возможна, если эксперт формулирует правило оценки.
Примерами задач разметки важности являются формулировки:
Заданы фрагменты текста, связанные отношением важности. Требуется вычислить составной текст, учитывающий взаимный порядок фрагментов.
Задан текст, для фрагментов которого известны их важности. Требуется из исходного текста вычислить короткий текст, имеющий тот смысл важности, что и исходный текст.
Используемое в названии статьи прилагательное «доказательные» навеяно термином «доказательная медицина».
Основной принцип доказательной медицины – прозрачность обоснования клинических решений (хотя бы в идеале).
Подразумевается, что основной отличительной особенностью предлагаемого исследовательского инструмента является наблюдаемость и интерпретируемость всех тактов вычислений. Все промежуточные результаты алгебраических вычислений могут быть декодированы в слова для необходимой интерпретации влияния на конечный результат. В этом смысл вербальных вычислений.
Под доказательностью понимается генерация подробного отчета о проведенных вербальных расчетах с интерпретацией тактов вычислением и указанием взаимных влияний на результат.
Приводится пример вербального вычисления решения многокритериальной задачи. На входе датасет из набора текстов оценочных суждений, на выходе – текст решения.
Обнаруживается место в вычислениях, когда решение ветвится. Поскольку все такты вычислений прозрачны, то ответственным за развилку являются указанные две оценки в таблицах парных сравнений входного датасета. Удивительно, но по ходу вычислений они выглядят как второстепенные и незначительные. Но влияние их оказалось оглушительным и на пьедестале может оказаться аутсайдер-решение.
Если пренебречь этими второстепенными оценками, то результат вербальных вычислений совпадает с результатом, полученным в [2, стр. 105] по методу Саати
solaris ≻ rio≻ logan ≻ vesta ≻ cruze
Если эксперт или ЛПР настаивает на своих первоначальных оценках, то по вербальным вычислениям победителем неожиданно становится vesta.
Это качественно новый результат, который мог не состояться из-за того, что исходные данные экспертных оценок так были погружены (эмбеддинг) Саати в действительные числа, что были арифметическими средними взвешенными недопустимо сглажены, а незаметные повороты и открытия пропущены.
Важной задачей NLP также может быть пересказ (retell) идеального текста, например, авторского, «своими словами» — это основной прием понимания текста. Авторский текст составляется как универсальный, по мнению писателя понятный и интересный как можно большему числу читателей. Это обычно нереализуемая задача. Этот феномен прекрасно передан в романе Джека Лондона «Мартин Иден».
Авторский текст или сознательно избыточен, чтобы каждому читателю было бы что-то понятно и интересно (всем по-разному), или сурово краток (автор забил на всеобщее понимание), или смешанный вариант (как здесь).
Необходим ассистент-пересказочник (autoReteller), назначение которого преобразовать авторский текст в персональный текст читателя (на его персональном контекстном языке). Это не краткое универсальное изложение авторского текста, а специализированное «переиздание» в единственном экземпляре.
В алгебре текста это означает преобразование одного идеального теста (в указанном выше смысле) в другой идеальный текст в плоскости Ньютона и сопряженной контекстной (фантомной). Каждый текст (авторский и читательский) должны обладать свойством идеальности текста, но быть разными текстами. При этом необходимым условием успешности ретеллинга является наличие читательского датасета как персонального контекстного словаря.
В следующей публикации будет представлен пример такого читательского датасета указанного романа Д. Лондона.
Статья основана на исследованиях [1] и [2] и подробно изложена здесь [3].
1. Пшеничников С.Б. Алгебра текста. – Екатеринбург: Ridero, 2022. – 276 с. – ISBN 978-5-0056-8888-0.
https://www.researchgate.net/publication/363137045_Algebra_of_text_RUS
2. Пшеничников С.Б. Алгебра текста суждений. Самоучитель понимания — Екатеринбург: Ridero, 2024. — 164 с.
ISBN: 978-5-0062-2173-4
https://www.researchgate.net/publication/377600531_ALGEBRA_TEKSTA_SUZDENIJ_Psenicnikov_SB
3. Пшеничников С.Б. Вербальные вычисления (VC) в
доказательных DSS и NLP. 51 стр.
https://www.researchgate.net/publication/380131273_VERBALNYE_VYCISLENIA_VC_V_DOKAZATELNYH_DSS_I_NLP