В данной статье речь пойдёт о замерах производительности и точности работы моделей YOLOv8 на разных устройствах с различными оптимизациями и без них. Большое внимание будет уделено работе Yolo на “слабых устройствах”, таких как Raspberry PI, Orange PI, Jetson Nano, мини ПК.
Чтобы лучше понять автора:При проведении данного исследования вектор интересов был направлен на решение задачи детекции в режиме реального времени на маломощных устройствах.
Современные задачи робототехники требуют вычислений "на борту", что особенно актуально для автономных систем. Важность данного исследования заключается в том, что оно направлено на решение задачи детекции в режиме реального времени на маломощных устройствах, что открывает новые возможности для использования компьютерного зрения в мобильных и автономных роботах. Будем считать, что FPS обработки изображений >= 10 пригоден для некоторых задач детекции в реальном времени, но далеко не для всех.
В GitHub репозитории находятся код бенчмарка, скрипты для теста и результаты в csv файлах. Также все веса моделей, полученных в процессе исследования находятся в публичном доступе на Гугл диске и Второй гугл диск.
Скрипт бенчмарка
Описание метрик
Базовые модели Yolo на разных устройствах
Intel I7-12700H - в ноутбуке
N100 - Мини ПК
Raspberry PI 4 базовая
Raspberry PI 4 2.3 Ghz
Orange PI Zero 1 GB RAM
Выводы по базовому рантайму
Fine-Tuned Yolo модель на базовом рантайме
I7-12700H
N100
Raspberry PI 2.3Ghz
Orange PI Zero 1GB RAM
Выводы по Fine-Tuned модели
Базовые модели, эксперимент с входными изображениями
Как ускорить инференс модели
Квантизация и различные рантаймы
ONNX
I7-12700H
N100 - Мини ПК
Raspberry PI 4 2.3Ghz
Raspberry PI 4 базовая
Orange PI Zero 1GB RAM
Выводы по рантайму
Бенчмарк нашей модели на ONNX
I7-12700H
N100
OpenVINO - Оптимизация для Intel
I7-12700H
N100
NCNN
Intel i7-12700H
N100
Raspberry PI
TfLite и Deepsparse
Nvidia Jetson Nano
Попытки оптимизации
Выводы по рантаймы
Выводы по выбору модели и железа
Исследование проводится на 5 различных устройствах и более чем 60 моделях. Выполнение этой задачи вручную потребовало бы значительного времени и ресурсов, поэтому было принято решение автоматизировать процесс сбора данных.
Система для бенчмарка состоит из серверной и клиентской частей. Серверная часть отвечает за хранение списков моделей и тестовых видео. Клиентский код запрашивает у сервера актуальные списки моделей и тестовых видео, загружает их и, проведя тестирование, отправляет результаты обратно на сервер.
Запуск сервера (из репозитория):
git clone https://github.com/ret7020/YoloBenchmarks
cd YoloBenchmarks/server
python3 server.py
Код сервераimport socket
from time import sleep
from threading import Thread
from config import *
from socket_utils import *
from os import path, makedirs
import csv
ip = "0.0.0.0"
port = 8001
makedirs(python_files_path, exist_ok=True)
makedirs(video_path, exist_ok=True)
makedirs(model_path, exist_ok=True)
makedirs(analytics_path, exist_ok=True)
headers_writen = []
def csv_benchmark(path, results):
with open(path, 'a', newline='') as csvfile:
writer = csv.DictWriter(csvfile, fieldnames=CSV_HEADER)
for model in results:
res = results[model]
print(res)
writer.writerow({'model': model} | res)
def process_client(conn, addr):
global analytics_path, headers_writen
print("Connect from", addr)
while True:
recv = receive_json(conn)
if recv["type"] == "ask_files":
print(addr, f"asked file {recv['filename']} from group {recv['ftype']}")
file_name = recv["filename"]
if recv["ftype"] == "py":
send_file(conn, path.join(python_files_path, file_name))
elif recv["ftype"] == "video":
send_file(conn, path.join(video_path, file_name))
elif recv["ftype"] == "model":
send_file(conn, path.join(model_path, file_name))
elif recv["type"] == "get_models":
send_json(conn, models)
elif recv["type"] == "get_videos":
print(addr, "asked videos")
send_json(conn, videos)
elif recv["type"] == "send_stats":
print("Results from", addr)
if not recv["save_name"] in headers_writen:
with open(path.join(analytics_path, recv["save_name"]), 'w', newline='') as csvfile:
writer = csv.DictWriter(csvfile, fieldnames=CSV_HEADER)
writer.writeheader()
headers_writen.append(recv["save_name"])
csv_benchmark(path.join(analytics_path, recv["save_name"]), recv["results"])
if __name__ == "__main__":
print(f"Run on {ip}:{port}")
sock = socket.socket()
sock.bind((ip, port))
sock.listen(1)
while True:
conn, addr = sock.accept()
t = Thread(target=process_client, args=(conn, addr))
t.start()
Конфигурация сервера находится в файле config.py:
models = {
"base": [
("yolov8n.pt", "12qTtp-hjls6N0UMLbkurzxHzuhpWxqWt", False),
("yolov8s.pt", "1ga8jan6BvP8Pbmphx9HHBvby96jQgjHS", False),
("yolov8m.pt", "1r0ph4mbFsiuuRDxJHAj3di9TFnzCXbUq", False),
("yolov8l.pt", "1f1SlM01l3EWvpH66fEqyrdsEe1F5PdFT", False),
("yolov8x.pt", "1stXAXeDSgaMFv8AkZwtiw5RXvInd74tQ", False)
]
}
videos = [
("cubes.mp4", "1t1zOk8CPQGFdpRl7l3gJthydGOqDbRVI")
]
video_path = "files/videos"
model_path = "files/models"
python_files_path = "files/py"
analytics_path = "files/analytics"
CSV_HEADER = ['model', 'runtime', 'inference_time_1', 'fps', 'inference_time', 'device', 'half', 'int8', 'map50', 'map75', 'warmup_max_inf_time', 'warmup_min_inf_time', 'inference_time_max', 'inference_time_min']
models - словарь в котором ключи - категории моделей. В каждой категории находится список кортежей следующего формата:
[
(“название весов моделей”, “ID файла на гугл диске”, директория или нет),
(“название весов моделей”, “ID файла на гугл диске”, директория или нет)
]
Некоторые оптимизированные модели могут работать только на определённом железе (например, OpenVINO только на Intel). Поэтому пользователь на устройстве для бенчмарка может выбрать категории моделей для теста вначале запуска.
videos - список видеофайлов для теста, имеющего похожий формат:
("Название файла", "ID файла на гугл диске")
analytics_path указывает на директорию для сохранения результатов бенчмарков, если директории нет, то она будет создана автоматически.
В CSV_HEADER менять можно только порядок колонок.
Запуск клиента (из репозитория):
git clone https://github.com/ret7020/YoloBenchmarks
cd YoloBenchmarks
python3 remote_run.py
Далее необходимо ввести ip сервера, порт (по-умолчанию 8001), название устройства (от него зависит имя файла с бенчмарком).
Далее скрипт запросит у сервера список моделей и видео для теста. Потом пользователю нужно выбрать категории моделей для теста. После этого скрипт скачает недостающие для теста файлы и приступит к бенчмарку.
Модели и видео файлы скачиваются с гугл диска через утилиту gdown, имеющую API под Python. Гугл диск позволяет скачивать файлы и директории с достаточно высокой скоростью. Некоторые модели представляют из себя не только файл весов, но и метафайлы, объединённые в одну папку.
Для использования gdown файл нужно сделать с “Доступом по ссылке”. ID файла можно достать из полученной ссылки:
https://drive.google.com/file/d/14DixrZ9Pcl_JpGzpB2U66YDwS4v9hHdS/view?usp=sharing
Пример использование библиотеки через Python:
import gdown
# Скачивание файла
FILE_ID = "14DixrZ9Pcl_JpGzpB2U66YDwS4v9hHdS" # ID файла на гугл диске
SAVE_TO = “open_me.png” # куда скачивать
gdown.download(id=FILE_ID, output=SAVE_TO)
# Скачивание директории
DIR_ID= "1ALYWISJipP2XOp1OHmDJ0XqPcOuCnQLd" # id директории на гугл диске
SAVE_TO = “dir” # куда скачивать
gdown.download_folder(id=DIR_ID, output=SAVE_TO)
Процесс тестирования моделей осуществляется следующим образом:
Первые 10 кадров из тестового видео используются для "прогрева" модели. Поскольку после загрузки весов модели в оперативную память или память видеокарты доступ к ней сначала происходит неэффективно, первые несколько задач будут медленнее, чем последующие. Бенчмарк фиксирует минимальное и максимальное время инференса во время "прогрева", однако эти данные не используются для дальнейшего анализа.
Когда модель готова к работе, запускается цикл обработки 200 следующих кадров из видео. Для каждой тестируемой модели эти 200 кадров будут идентичными, что позволяет стандартизировать условия тестирования (влияние количества потенциальных классов на изображении на производительность будет рассмотрено позже).
Каждый кадр сжимается до разрешения 640x640 пикселей и передается в модель, при этом фиксируется время инференса.
После обработки всех 200 кадров результаты собираются и отправляются на сервер для дальнейшего анализа.
В первой версии бенчмарка после замера скорости моделей проводилась валидация модели на coco8 (первые 8 изображений из датасета, на котором обучены базовые модели Yolo). Но 8 изображений оказалось недостаточно для объективной оценки качества работы модели. На метрики качества модели не влияет устройство инференса (значительно), поэтому метрики mAP50, mAP75 были посчитаны для каждой модели на датасете coco128 на Google Colab. Скрипт для замера mAP набора моделей здесь.
mAP (mean average precision) - одна из самых популярных метрик в задачах object detection, которая при достаточном количестве валидационных изображений позволяет достаточно точно определить качество работы модели. На самом деле далее нас будет интересовать не само значение mAP, а то как сильно mAP оптимизированной модели отличается от базовой.
Клиентская функция бенчмаркаdef bench_model(model, video, args):
inference_times = []
is_half = True if "half" in args else False
is_int8 = True if "int8" in args else False
optimize = False if "ncnn" in args else True # NCNN models can't work with optimize flag
runtime = args[1] if len(args) > 1 else "BASE"
capture = cv2.VideoCapture(video)
# Warmup model before benched inference (anyway on test images set, not camera)
warmup_times = []
print(colored(f"Testing model: {model.ckpt_path} with video: {video}", "green"))
for _ in range(10):
_, frame = capture.read()
res = model.predict(frame, task=TASK, verbose=False, half=is_half, int8=is_int8, optimize=optimize, save=False, visualize=False)
warmup_times.append(res[0].speed["inference"])
print(colored(f"Warmup finished", "green"))
frames_cnt = 0
progress_bar = iter(tqdm(range(200)))
while capture.isOpened():
ret, frame = capture.read()
if ret and frames_cnt < 200:
frame = cv2.resize(frame, (640, 640))
res = model.predict(frame, task=TASK, verbose=False, half=is_half, int8=is_int8, optimize=optimize, save=False, visualize=False)
inference_times.append(res[0].speed["inference"])
frames_cnt += 1
next(progress_bar)
else:
capture.release()
print(colored(f"Benchmark finished", "yellow"))
if VALIDATE:
metrics = model.val(data=VALIDATE_CONFIG, verbose=False)
map50 = metrics.box.map50
map75 = metrics.box.map75
else:
map50 = None
map75 = None
print(colored(f"Model validated on {VALIDATE_CONFIG}", "yellow"))
return {
"inference_time": sum(inference_times) / (len(inference_times)), # ms
"inference_time_1": round(sum(inference_times) / (len(inference_times)), 1), # ms 1 digit
"inference_time_min": min(inference_times),
"inference_time_max": max(inference_times),
"fps": round(1000 / (sum(inference_times) / (len(inference_times))), 1), # fps 1 digit
"half": int(is_half),
"int8": int(is_int8),
"runtime": runtime,
"map50": map50,
"map75": map75,
"device": "cpu", # TODO selectable device
"warmup_min_inf_time": min(warmup_times),
"warmup_max_inf_time": max(warmup_times)
}
def benchmark(models, images, repeat_coeff=5, save_callback=lambda x: None):
print(
f"Testing models: {len(models)}\nUniq images: {colored(len(images), 'green')}\nInferences count: {colored(str(len(models) * repeat_coeff * len(images)), 'yellow')}")
results = {}
for model in tqdm(models):
args = model[1:] if len(model) > 1 else []
model = YOLO(model[0])
results[model.ckpt_path] = bench_model(model, args, images, repeat_coeff=2)
save_callback(results[model.ckpt_path])
# Clean system after inference
del model
torch.cuda.empty_cache()
gc.collect()
return results
Метрика mAP (mean Average precision) основана на IoU, которая рассчитывает пересечения детектируемого bounding box’а от эталонного.
mAP считает среднее IoU с заданным трешхолдом на валидационном датасете.
mAP50 - трешхолд по IoU 0.5 (50%)
mAP75 - трешхолд по IoU 0.75 (75%)
Все тесты проводились при минимальной сторонней загрузке системы.
Основные характеристики процессора:
Alder Lake (12 поколение)
Количество ядер: 14
Количество потоков: 20
Максимальная частота: 4.7 Ггц
Основные характеристики системы:
OS: Arch Linux
RAM: 16 Gb
Версии:
python: 3.11.6
ultralytics: 8.2.28
torch: 2.1.2
torchvision: 0.16.2
Модель | Время мс | FPS | mAP50 | mAP75 | max FPS | min FPS | вес мб |
yolov8n.pt | 103.6 | 9.7 | 0.607 | 0.476 | 10.78 | 7.2 | 6.2 |
yolov8s.pt | 332 | 3 | 0.760 | 0.638 | 3.1 | 2.73 | 21.5 |
yolov8m.pt | 834 | 1.2 | 0.784 | 0.652 | 1.53 | 0.8 | 49.7 |
yolov8l.pt | 1652.1 | 0.6 | 0.828 | 0.706 | 0.61 | 0.59 | 83.7 |
yolov8x.pt | 3065 | 0.3 | 0.829 | 0.707 | 0.4 | 0.23 | 130.5 |
В таблице выделены столбцы (FPS, max FPS, min FPS), значения которых меняются в зависимости от устройства запуска.
С базовыми моделями всё достаточно просто и предсказуемо. Буква после yolov8 означает размер модели: nano, small, medium, large, x. Чем больше модель, тем больше её вес и fps ниже. mAP также выше у более тяжёлых моделей. Стоит обратить внимание, что FPS X модели в среднем в 2 раза ниже, чем у L модели. При этом mAP50 и mAP75 примерно одинаковые. Это подтверждают и официальные данные от ultralytics:
mAP50-95 у L модели: 52.9
mAP50-95 у X модели: 53.9
Основные характеристики процессора:
Alder Lake (12 поколение)
Количество ядер: 4
Количество потоков: 4
Максимальная частота: 3.4 Ггц
Основные характеристики системы:
OS: Ubuntu 22.04 Server
RAM: 16 Gb
Версии:
python: 3.10.12
ultralytics: 8.2.28
torch: 2.3.0
torchvision: 0.1
Модель | Время мс | FPS | max FPS | min FPS |
yolov8n.pt | 249.4 | 4 | 4.02 | 3.72 |
yolov8s.pt | 714.2 | 1.4 | 1.4 | 1.39 |
yolov8m.pt | 1832.3 | 0.5 | 0.55 | 0.54 |
yolov8l.pt | 3635.9 | 0.3 | 0.28 | 0.27 |
yolov8x.pt | 5592.5 | 0.2 | 0.18 | 0.18 |
Основные характеристики системы:
Активное охлаждение, алюминиевый корпус, достаточное питание.
OS: Ubuntu 22.04 Server
RAM: 8 Gb
Версии:
python: 3.10.12
ultralytics: 8.2.28
torch: 2.3.0
torchvision: 0.18.0
Тестирование всех базовых моделей мы не стали проводить полностью, так как FPS даже на yolov8m был слишком низким.
Модель | Время мс | FPS | max FPS | min FPS |
yolov8n.pt | 2001 | 0.5 | 0.50 | 0.48 |
yolov8s.pt | 4999 | 0.2 | 0.202 | 0.191 |
yolov8m.pt | 10832.3 | 0.1 | 0.08 | 0.07 |
2.3Ghz - максимальная частота на которую можно разгонять процессор Raspberry PI при условии достаточного питания и охлаждения.
Основные характеристики системы:
Активное охлаждение, алюминиевый корпус, оригинальный блок питания на 3A
Версии:
python: 3.10.12
ultralytics: 8.2.28
torch: 2.3.0
torchvision: 0.18.0
ncnn: 1.0.20240410
onnxruntime: 1.18.0
Модель | Время мс | FPS | max FPS | min FPS |
yolov8n.pt | 1876 | 0.5 | 0.542 | 0.523 |
yolov8s.pt | 4771.2 | 0.2 | 0.213 | 0.205 |
yolov8m.pt | 11569.9 | 0.1 | 0.1 | 0.08 |
Значительного прироста FPS относительно не разогнанной Raspberry PI нет.
Модель | Время мс | FPS | max FPS | min FPS |
yolov8n.pt | 4229.9 | 0.2 | 0.239 | 0.234 |
yolov8s.pt | 714.2 | 0.1 | 0.079 | 0.078 |
FPS ещё ниже, чем на Raspberry PI
Yolov8n работает ~ в 2 раза быстрее более тяжёлой yolov8s. На маломощных устройствах запуск моделей тяжелее yolov8n смысла не имеет, если необходимо получить детекцию в реальном времени.
Кроме тестирования базовых моделей от ultralytics, обученных на датасете COCO, мы измерили производительность и качество работы своей модели обученной на основе весов yolov8n. Модель детектирует 3 класса, соответствующие трём цветам кубиков:
За base.pt обозначается обученная модель без рантаймов и квантизаций.
Модель | FPS | mAP50 | mAP75 | max FPS | min FPS |
base.pt | 11.5 | 0.799 | 0.724 | 12.55 | 5.92 |
FPS этой модели больше yolov8n на 18.5%
Модель | FPS | max FPS | min FPS |
base.pt | 4.2 | 4.308 | 4.048 |
FPS этой модели больше yolov8n на 5%
Модель | FPS | max FPS | min FPS |
base.pt | 0.6 | 0.6 | 0.58 |
FPS этой модели больше yolov8n на 20%
Модель | FPS | max FPS | min FPS |
base.pt | 0.3 | 0.3 | 0.26 |
Обученная модель работает быстрее yolov8n на ~20%. Это можно объяснить количеством параметров.
Следующая функция, позволяет по загруженной Yolov8 модели посчитать количество её параметров:
from ultralytics import YOLO
def cnt_params(model):
p_cnt = 0
for p in list(model.model.parameters()):
nn = 1
for s in list(p.size()):
nn = nn * s
p_cnt += nn
return p_cnt
if __name__ == "__main__":
m = YOLO("yolov8n.pt")
print(cnt_params(m))
В yolov8n модели 3157200 параметров, а в дообученной 3011628 (на 4.8% меньше).
Проверим влияние количества потенциальных классов (количество предметов на изображении, которые умеет детектировать модель) на скорость инференса.
Для теста был написан простой скрипт на Python (на Гитхабе):
Hidden textfrom ultralytics import YOLO
import cv2
import gc
import torch
times = []
MANY_CARS = ["./assets/images/cars_many.jpg",
"./assets/images/cars_many_1.jpg",
"./assets/images/cars_many_2.jpg",
"./assets/images/cars_many_3.jpg"]
SINGLE_CAR = ["./assets/images/single_car.jpg",
"./assets/images/single_car_1.jpg",
"./assets/images/single_car_2.jpg",
"./assets/images/single_car_3.jpg"]
MODELS = ["yolov8n.pt", "yolov8s.pt", "yolov8m.pt", "yolov8l.pt", "yolov8x.pt"]
PER_IMG_INF_CNT = 100
for model in MODELS:
print("-" * 5 + model + "-" * 5)
torch.cuda.empty_cache()
gc.collect()
m = YOLO(model)
print("Warmup...")
for _ in range(15): m("./assets/images/bus.jpg", save=False, verbose=False, visualize=False)
print("Test...")
for img in MANY_CARS:
times += [m(cv2.resize(cv2.imread(img), (640, 640)))[0].speed['inference'] for _ in range(PER_IMG_INF_CNT)]
print(1000 / (sum(times) / len(times)), 1000 / max(times), 1000 / min(times))
times = []
torch.cuda.empty_cache()
del m
gc.collect()
m = YOLO(model)
print("Warmup...")
for _ in range(15): m("./assets/images/bus.jpg", save=False, verbose=False, visualize=False)
print("Test single cars...")
for img in SINGLE_CAR:
times += [m(cv2.resize(cv2.imread(img), (640, 640)))[0].speed['inference'] for _ in range(PER_IMG_INF_CNT)]
print(1000 / (sum(times) / len(times)), 1000 / max(times), 1000 / min(times))
del m
Тестирование проводилось на 4 изображениях, где много машин и на 4 изображениях, где только одна машина.
Примеры изображений:
Первые 15 инференсов используются для “прогрева”. Затем каждая из 8 картинок(4 и 4) проходит 100 раз через нейросеть. После этого считается максимальный, минимальный и средний FPS. После теста на изображениях с большим количеством машин модель удаляется из памяти, чистится кэш CUDA, принудительно очищается мусор через gc.
Результаты запуска скрипта на Google Colab с GPU T4
Результаты оказались не очевидными. N модель быстрее работает, когда на изображении только одна машина. Но остальные, более тяжёлые модели работают быстрее на изображениях с большим количеством машин. Результаты запуска на Intel I7-12700H похожи по поведению (отличие только в том, что FPS ниже).
ПредположениеТакое поведение моделей Yolo может быть связано с тем, что у N модели мало параметров и она рассчитана под детекцию небольшого количества объектов. Остальные модели содержат больше параметров и различных фич, которые являются оверхэдом для задачи детекции одного крупного объекта на изображении.
Базовые модели работают недостаточно быстро на процессоре для детекции в реальном времени. Существуют разные способы ускорения инференса модели, но все они заключаются в упрощении модели под необходимое оборудование Облегчение модели может ухудшить качество её работы, поэтому кроме замера скорости работы оптимизированных моделей стоит обращать внимание на её mAP до оптимизации и после.
Квантизация — это процесс уменьшения разрядности чисел, используемых для представления весов и активаций нейронной сети. Этот метод позволяет значительно снизить требования к вычислительным ресурсам и объему памяти, что особенно полезно для развертывания моделей на маломощных устройствах, таких как Raspberry PI, Orange PI и Jetson Nano.
В yolo, модели можно квантизировать в два вида разрядностей: half (FP16) и int8. Квантизация в int8 максимально облегчает модель. Но не всегда квантизация в half может дать прирост в скорости работы модели. Далеко не все процессоры, ввиду своей архитектуры, способны эффективно производить FP16 вычисления. Подробнее про FP16 на разных архитектурах можно прочитать в топике на stackoverflow.
В yolo реализована система экспорта моделей в различные форматы. Процесс экспорта моделей тоже был автоматизирован. Вы можете найти этот скрипт в GitHub репозитории (export.py). Пример конфига экспорта:
EXPORT_MODELS = [
{"format": "openvino", "half": False, "int8": False, "optimize": True, "save_name": "cube_openvino_base_openvino_model"},
{"format": "onnx", "half": False, "int8": False, "optimize": True, "save_name": "onnx_model.onnx"}
]
Указываются формат модели, квантизация, флаг оптимизации и имя для сохранения новой модели. При экспорте можно указать флаги optimize и simplify. Данные флаги подробно описаны разработчиком в issue на гитхабе. Если указан флаг simplify, то при экспорте в формат ONNX yolo попытается удалить “лишние” связи в модели и объединить некоторые операции. В скрипте данный флаг стоит для всех экспортов. Он не имеет смысл для других форматов модели, но ухудшить производительность точно не может. Флаг optimize применяет к модели JIT (Just In Time) компиляцию. Он работает не для всех моделей(например, ncnn его не поддерживает), поэтому явно прописывается в конфиге.
Скрипт работает следующим образом:
Прописывается конфиг с базовыми моделями (например, yolov8n.pt, yolov8s.pt)
Каждая базовая модель экспортируется в список форматов, указанных в конфиге
На выходе получается папка exported_models со всеми моделями (кроме базовых). Если нужно экспортировать отдельную одну модель, то можно воспользоваться терминальной командой Yolo:
yolo export model=ПУТЬ К ВЕСАМ format=ФОРМАТ int8=True simplify=True optimize=True data=coco8.yaml
Квантизация изначально отключена, чтобы её включить нужно добавить аргументы int8=True или half=True. Так же при экспорте с квантизацией(int8 или half) необходимо добавить аргумент data, содержащий путь к конфигу датасета модели. Для базовых моделей можно указать coco8.yaml, coco128.yaml, coco.yaml (первые 8 изображений; первые 128; полный датасет coco). Чтобы качество работы модели при квантизации меньше падала применяется калибровка. Она использует датасет модели, чтобы точнее квантизировать веса.
Для экономии времени экспортировать модели можно на более мощных устройствах, а запускать на слабых. Например, экспортировать квантизированную модель для Raspberry PI можно на Google Colab. В документации по экспорту в формат TensorRT сказано следующее:
Remember calibration for INT8 is specific to each device, borrowing a "high-end" GPU for calibration, might result in poor performance when inference is run on another device.
Здесь говорится про TensorRT и GPU, но мы решили проверить справедливость утверждения для CPU. Для проверки модель yolov8n была экспортирована в ONNX с квантизацией int8 на Raspberry PI и ноутбуке с i7-12700H. Сначала модели были протестированы (замерена скорость работы и валидация на coco128) там, где экспортированы. Затем модель с ноутбука была проверена на Raspberry и наоборот. Изменений в mAP и FPS не было (при округлении значений до 10^4). Делаем вывод, что это утверждение актуально для инференса на GPU c TensorRT int8. Перейдём к тестированию различных рантаймов и форматов моделей Yolo.
ONNX - единый формат, который упрощает процесс переноса моделей глубокого обучения между фреймворками. Кроме того, у onnx есть собственный рантайм для запуска моделей этого формата. Yolov8 из коробки поддерживает экспорт в onnx с квантизацией. ONNX модели должны работать на любых устройствах (в отличии от некоторых других форматов).
Тестировались следующие вариации моделей: без квантизации, с квантизацией в int8, модель без флага simpilfy. Квантизация в half и int8 не отличаются по скорости инференса и mAP.
Квантизация
int8 и обычная модель onnx не имеют особых отличий в скорости работы и качестве по метрикам mAP, если эта модель экспортирована с флагом simplify. Для эксперимента по проверке влияния флага simplify N модель была дополнительно экспортирована в onnx с квантизацией в int8 и без неё, но без флага simplify (simplify=False)
Simplify
Данный флаг увеличивает производительность ONNX модели на 10-20%. Без этого флага квантизипрованная в int8 модель работает быстрее (на ~3%) такой же модели, но без квантизации (в таблице yolov8n_onnxnosimp_base.onnx и yolov8n_onnxnosimp_int8.onnx ). При этом у моделей без simplify mAP совпадает с метриками моделей без этого флага
Команда для экспорта модели ONNX с квантизацией в int8 и флагами оптимизации:
yolo export model=yolov8n.pt format=onnx optimize=True simplify=True int8=True data=coco8.yaml
Если экспортируете не базовую модель, то в аргументе data нужно указать путь к своему конфигу датасета.
Отсутствие значительных отличий в скорости работы и метриках mAP между квантизированной в int8 и стандартной ONNX моделями подтверждают данные бенчмарка с процессора I7.
На разогнанной Raspberry запуск моделей onnx(на основе yolov8n) загружает все 4 ядра 4 потока под 100% и одноплатник зависает. Запуск инференса отдельно от бенчмарка работает также. Обновление onnx (с версии 1.14.1 до 1.16.1) не решило проблему.
Модель | FPS |
yolov8n_onnx_base.onnx | 1.9 |
yolov8n_onnx_int8.onnx | 2.0 |
Модель | FPS |
yolov8n_onnx_base.onnx | 1.3 |
yolov8n_onnx_int8.onnx | 1.3 |
Комплексируя результаты бенчмарков модели ONNX с различных устройств, можно сделать следующие выводы:
На мини ПК с N100 ONNX позволяет на основе N модели проводить детекцию в режиме реального времени. Квантизация и экспорт модели в ONNX не ухудшает качество её работы. Ресурсов Orange PI и Raspberry PI недостаточно для данной задачи.
Модель | Время мс | FPS | mAP50 | mAP75 |
base_onnx_base.onnx | 76.2 | 13.1 | 0.782 | 0.699 |
base_onnx_int8.onnx | 75.6 | 13.2 | 0.782 | 0.699 |
До конвертации в ONNX:
Модель | FPS | mAP50 | mAP75 | max FPS | min FPS |
base.pt | 11.5 | 0.799 | 0.724 | 12.55 | 5.92 |
Метрики mAP50 и mAP75 стали ниже, скорее всего это связано с недостаточностью обучающей выборки. Чем выше качество изначальной модели, тем ниже негативное влияние квантизации и экспорта в разные рантаймы. При этом скорость, своей модели в формате ONNX на 28% выше, чем N модель в ONNX.
N100
Модель | Время мс | FPS |
base_onnx_base.onnx | 85.4 | 11.7 |
base_onnx_int8.onnx | 75.6 | 11.9 |
Наша модель "знает" намного меньше классов объектов, чем базовая COCO модель, количество параметров у нашей модели также меньше, поэтому её производительность немного выше.
OpenVINO (Open Visual Inference and Neural Network Optimization) — это набор инструментов от Intel для ускорения инференса нейронных сетей на различных платформах, включая CPU, интегрированные GPU, VPU и FPGA. OpenVINO предоставляет мощные инструменты для оптимизации моделей и их квантизации, что особенно полезно для выполнения моделей на маломощных устройствах. OpenVINO предназначен для работы на процессорах и видеокартах Intel, на других устройствах эти модели работать не будут.
Тестировались стандартная модель, квантизированная в fp16 и int8.
Квантизация в int8 моделей OpenVINO позволяет решать задачу детекции в режиме реального времени на процессоре I7 с помощью трёх базовых моделей(N, S, M).
Квантизация в half не увеличивает производительность моделей OpenVINO. Рассмотрим N модель.
Квантизированная в int8 OpenVINO модель быстрее базовой N модели более чем в 10 раз. Квантизация OpenVINO в int8 ускоряет её в ~2 раза.
N100
Различные степени квантизации моделей OpenVINO ведут себя одинаково на N100 и I7. OpenVINO позволяет решать задачу детекции в реальном времени на основе модели yolov8n, экспортированной в OpenVINO с квантизацией int8.
На Raspberry PI и Orange PI запуск OpenVINO невозможен.
Из - за отсутствия значительного падения mAP у квантизированной в int8 модели и значительного прироста производительности стоит использовать данную
Команда для экспорта моделей в OpenVINO с квантизацией в int8
yolo export model=yolov8n.pt format=openvino optimize=True simplify=True int8=True data=coco8.yaml
Этот формат моделей предназначен для слабых устройств, наподобие Raspberry PI.
Квантизация в half и базовая модель не отличаются по своей производительности и метрикам mAP.
Модель | FPS |
yolov8n_ncnn_int8_ncnn_model | 8.1 |
yolov8s_ncnn_int8_ncnn_model | 4.1 |
yolov8m_ncnn_int8_ncnn_model | 2.1 |
yolov8l_ncnn_int8_ncnn_model | 1.2 |
yolov8x_ncnn_int8_ncnn_model | 0.8 |
N100
Модель | FPS |
yolov8n_ncnn_int8_ncnn_model | 9.6 |
yolov8s_ncnn_int8_ncnn_model | 4.0 |
yolov8m_ncnn_int8_ncnn_model | 1.8 |
yolov8l_ncnn_int8_ncnn_model | 1.0 |
yolov8x_ncnn_int8_ncnn_model | 0.7 |
Raspberry PI
Модель | FPS |
yolov8n_ncnn_int8_ncnn_model | 2.0 |
Orange PI
Модель | FPS |
yolov8n_ncnn_int8_ncnn_model | 0.2 |
Данный рантайм не даёт достаточной оптимизации.
Рантайм TFLite не показал значительного прироста производительности на наших устройствах, поэтому экспорт моделей в данный формат оказался бесполезным с точки зрения ускорения инференса.
Рантайм DeepSparse эффективно работает на батчах из изображений. При детекции в реальном времени возможности загрузить несколько изображений сразу нет. Кроме того, он не выдаёт стабильного FPS.
Данное устройство умеет запускать модели на CUDA, что позволяет существенно ускорить инференс. Результаты запуска модели на процессоре не имеют особого интереса (на N моделе всего 0.7 FPS)
Модель | FPS | max FPS | min FPS |
yolov8n.pt | 13.3 | 14.3 | 10.6 |
yolov8s.pt | 6.3 | 6.3 | 6.2 |
yolov8m.pt | 4.1 | 4.3 | 3.9 |
yolov8l.pt | 3.4 | 3.3 | 2.8 |
yolov8x.pt | 1.1 | 1.2 | 0.9 |
Для детекции в реальном времени можно использовать N модель, при этом более тяжёлые работают недостаточно быстро.
Попытки использовать различные рантаймы не увенчались успехом.
После установки onnxruntimegpu, модели ONNX не получилось запустить на GPU, а их производительность на CPU очень низкая.
Для оптимизации моделей под Nvidia GPU существует специальный рантайм - TensorRT.
Yolo из коробки умеет экспортировать модели в этот формат вместе с квантизацией. Но экспорт модель необходимо на самом Jetson Nano, так как модель экспортированная на другой версии TensorRT может запускаться только на этой версии TensorRT. Версия TensorRT напрямую зависит от версии CUDA, которая зависит от gpu. Максимальная версия CUDA, которую можно установить на Jetson Nano - 10.2. На Google Colab стоит более новая версия CUDA, которая конфликтует с версией TensorRT 8.0.1.6 (установленной на Jetson Nano).
Экспорт модели средствами yolo командой:
yolo export model=yolov8n.pt format=engine batch=1 workspace=1 int8=True data=coco.yaml
приводит Jetson к зависанию.
Затем мы попробовали экспортировать модель в формат onnx без оптимизаций, а затем штатную через утилиту trtexec. Команда экспорта выглядит так:
/usr/src/tensorrt/bin/trtexec --buildOnly --int8 --onnx=yolov8n.onnx --saveEngine=yolov8n.engine
Экспорт прошёл успешно, но время инференса модели стало слишком высоким (> 3000мс). Хотя в логах trtexec пишется про 65 мс:
Логи[06/13/2024-22:25:10] [I]
[06/13/2024-22:25:10] [I] === Performance summary ===
[06/13/2024-22:25:10] [I] Throughput: 15.0389 qps
[06/13/2024-22:25:10] [I] Latency: min = 66.1836 ms, max = 66.7713 ms, mean = 66.4839 ms, median = 66.4787 ms, percentile(99%) = 66.7713 ms
[06/13/2024-22:25:10] [I] End-to-End Host Latency: min = 66.1941 ms, max = 66.7808 ms, mean = 66.4938 ms, median = 66.4887 ms, percentile(99%) = 66.7808 ms
[06/13/2024-22:25:10] [I] Enqueue Time: min = 5.84814 ms, max = 6.35657 ms, mean = 6.10814 ms, median = 6.11487 ms, percentile(99%) = 6.35657 ms
[06/13/2024-22:25:10] [I] H2D Latency: min = 0.481689 ms, max = 0.487305 ms, mean = 0.484034 ms, median = 0.484131 ms, percentile(99%) = 0.487305 ms
[06/13/2024-22:25:10] [I] GPU Compute Time: min = 65.4216 ms, max = 66.0064 ms, mean = 65.7226 ms, median = 65.7175 ms, percentile(99%) = 66.0064 ms
[06/13/2024-22:25:10] [I] D2H Latency: min = 0.274902 ms, max = 0.281067 ms, mean = 0.277307 ms, median = 0.277222 ms, percentile(99%) = 0.281067 ms
[06/13/2024-22:25:10] [I] Total Host Walltime: 3.12524 s
[06/13/2024-22:25:10] [I] Total GPU Compute Time: 3.08896 s
[06/13/2024-22:25:10] [I] Explanations of the performance metrics are printed in the verbose logs.
[06/13/2024-22:25:10] [I]
&&&& PASSED TensorRT.trtexec [TensorRT v8001] # /usr/src/tensorrt/bin/trtexec --int8 --onnx=yolov8n.onnx --saveEngine=yolov8n.engine
[06/13/2024-22:25:10] [I] [TRT] [MemUsageChange] Init cuBLAS/cuBLASLt: CPU +0, GPU +0, now: CPU 871, GPU 1882 (MiB)
Максимальная производительность была получена на базовой модели yolov8n.pt, остальные рантаймы и форматы не работают корректно. При этом N модель работает на CUDA с достаточной скоростью (от 10.6 FPS до 14.3 FPS) для решения некоторых задач детекции в реальном времени.
Различные рантймы с квантизацией и без неё позволяют значительно увеличить скорость инференса моделей на процессоре. Следующий график демонстрирует соотношение FPS и рантайма.
Обработка видеопотока в режиме реального времени на мини ПК с N100 возможна только на основе базовой модели yolov8n и рантаймов OpenVINO, ONNX, NCNN.
Из результатов бенчмарков видно, что OpenVINO работает максимально быстро (~в 5 раз быстрее) базовой модели.
OpenVINO является самым быстрым рантаймом для систем с процессорами Intel. Это рантайм, который надо пробовать в первую очередь, если необходимо ускорить работу модели Yolo на CPU или GPU от Intel.
Разработчики OpenVINO заявляют, что рантайм способен ускорить инференс моделей на видеокартах Intel Arc, но проверить это не удалось.
Далее примерно одинаковая производительность у рантаймов NCNN и ONNX. Производительность TFLite значительно не отличается от производительности оригинальной модели.
Соотношение производительности между разными рантаймами на N100 частично соответствует данным с I7-12700H.
OpenVINO также является самым быстрым форматом. Далее по скорости идёт ONNX (так же, как и на N100). NCNN и TFLite работают примерно с той же скоростью, что и базовая модель. Но NCNN выдаёт практически такой же FPS как и на процессоре N100.
Рантайм | N100 | I7 |
yolov8n_ncnn_int8 | 9.6 | 8.1 |
Далее представлен график метрики mAP(на датасете coco128), в зависимости от рантайма.
Из него явно видно, что точность работы модели при экспорте в различные рантаймы с квантизаций уменьшается очень незначительно.
Для решения задачи детекции объектов в реальном времени на встраиваемых системах необходимо применять модели на основе yolov8n с квантизацией и оптимизацией. Raspberry PI и Orange PI не способны решить данную задачу даже на оптимизированных моделях с квантизацией в int8. Лучшие результаты по скорости инференса на процессоре были достигнуты на системах с Intel и моделях OpenVINO.
Ресурсов мини ПК с процессором N100 хватает для работы OpenVINO int8 модели на основе N весов.
Jetson Nano способен проводить детекцию в реальном времени на основе модели yolov8n, запущенной на CUDA. При этом другие рантаймы либо не запускаются, либо работают только на процессоре.
Все csv файлы бенчмарков здесь:
https://github.com/ret7020/YoloBenchmarks/tree/master/Analytics