Этот сайт использует файлы cookies. Продолжая просмотр страниц сайта, вы соглашаетесь с использованием файлов cookies. Если вам нужна дополнительная информация, пожалуйста, посетите страницу Политика файлов Cookie
Subscribe
Прямой эфир
Cryptocurrencies: 9850 / Markets: 82586
Market Cap: $ 2 346 399 202 802 / 24h Vol: $ 62 724 323 099 / BTC Dominance: 53.508244398338%

Н Новости

Уязвимые гиганты: что общего между зулусским языком и LLM

518b15c46021adf0bc90ae8418e4c034.png

Сейчас, когда каждый чих в интернете может привести к новому стартапу или технологическому прорыву, большие языковые модели (LLM) занимают своё законное место на передовой научно-технического прогресса. Они умнее, быстрее и эффективнее человека в ряде задач: написание кода, создание контента, перевод текстов и многое другое. Однако, такая высокая степень умения ставит нас перед новым набором проблем – их безопасностью и устойчивостью.

Кто бы подумал, что искусственный интеллект кусается? На деле, конечно, дело не в физическом нападении, а в уязвимостях, которые могут быть использованы злоумышленниками. Большие языковые модели действительно могут попасть под угрозу, и влияние таких событий может оказаться далеко не виртуальным.

Меня зовут Дарья Лютова, я data scientist в ЦАД ВАВТ, также я учусь в магистратуре AI Talent Hub ИТМО и интересуюсь вопросами обучения и безопасности языковых моделей. В этом посте, вместе с вами, хочу пойти дальше простого обсуждения существования уязвимостей в LLM и предлагаю вникнуть в тему проблем безопасности, касающуюся больших языковых моделей, выявить слабые места и прийти к пониманию методов их укрепления. Очень надеюсь, что эта информация поможет тем, кто преследует цель не только достичь новых высот в области AI, но и удостовериться, что их достижения надежны и устойчивы к киберугрозам.

Большие языковые модели (Large Language Models – LLM) – это сегодняшняя реальность, и наше будущее, без которого уже сложно представить свою жизнь. Кажется, что уже не только каждый разработчик слышал о LLM, но и многие школьники даже младших классов уже сталкиваются с этим явлением. Всем известно, что это крутые нейронные сети, которые учатся на огромном количестве текстов, чтобы понимать, как люди говорят и пишут, они умеют понимать и говорить на разных языках.
Самые сейчас известные LLM: GPT4, Mistral 7B OpenChat, Claude 3 Opus и другие, с одним из вариантов лидерборда моделей можно ознакомиться по ссылке (https://chat.lmsys.org/?leaderboard).

Про LLM знают почти все, но не очень многим известно, что эти модели могут быть уязвимы, причем данном случае речь идет не о сбоях в работе модели или выдаче неверного ответа, речь о целенаправленных атаках злоумышленников с целью получения конфиденциальной информации, утечкам данных (много и интересно про уязвимости в статье), выдачи вредоносного контента, например, рекомендации посетить нежелательный сайт, а также манипуляции и дезинформации. В LLM могут быть заложены предвзятости, обусловленные предвзятостью в наборах данных для обучения, а это может привести к дискриминационной, ошибочной или предвзятой генерации контента. Большие языковые модели могут стать мишенью для специфических программных атак, нацеленных на эксплуатацию уязвимостей в алгоритмах или инфраструктуре, что может нарушить их функционирование или повлиять на качество генерируемого контента.

Т.к. сейчас LLM используют очень многие, важно понимать эти уязвимости и принимать меры для обеспечения безопасности моделей и данных, с которыми они работают.

По какой причине в таком мощном инструменте могут возникать уязвимости, некоторые из которых могут быть использованы злоумышленниками? Это происходит из-за сложности и размера самих моделей, которые могут стать мишенью для специально разработанных атак. Кроме того, часто данные, на которых обучаются эти модели, могут быть неочищенными и содержать предвзятость, которая затем отражается в работе LLM. Недостаточное тестирование моделей на безопасность также может стать причиной возникновения уязвимостей.

Авторы статьи Jailbroken: How does llm safety training fail? говорят о двух, на их взгляд, основных причинах того, что взлом моделей возможен.

  1. Конкурирующие цели (competing objectives) возникают в ситуациях, когда задачи предварительного обучения и следования инструкциям модели противоречат задаче безопасности.

5c84c516aab8f7f108e353a66e33d9c9.png

Например, мы конструируем промпт (запрос к модели) так, чтобы модель сначала ответила на какой-то простой и безопасный вопрос или выполнила какую-то простую инструкцию. Это базируется на том, что модели наказывают за отказ от безвредных инструкций. Если следующей частью промпта идет какой-то небезопасный вопрос, то модель скорее всего ответит и на него, поскольку отказ после старта генерации в предварительном обучении маловероятен и основная задача предварительного обучения заключается в наказании за отказ. В результате модель продолжает отвечать уже на небезопасный запрос.

  1. Несоответствующее обобщение (mismatched generalization) возникает, когда входные данные не попали в корпус для обучения модели на безопасность, но находятся в рамках более широкого и разнообразного набора данных предварительного обучения модели на разные задачи. Такое несоответствие может быть использовано для взлома путем конструирования запросов, на которых предварительное обучение и следование инструкциям обобщаются, но обучение на безопасность не работает. В таких случаях модель отвечает, но без учёта безопасности.

448a5e242803cbff8e0570da1fa0f854.png

В данном случае нам достаточно перевести небезопасный запрос на один из малоресурсных языков, и, с большой вероятностью успеха, модель выдаст нам вредоносный ответ.

Комбинация этих двух атак также может быть успешной. Но если для первой угрозы порой надо поломать голову и придумать что-то, что заставить модель отвечать нам положительно, то вторая атака порой требует только качественного переводчика на один из малоресурсных языков.

Второй тип атаки хочется рассмотреть подробнее.

Что значит малоресурсные языки, и почему это может сработать при взломе LLM?

a699c706600e011512b9357b4f3e3164.png

Для обеспечения безопасности и защиты от злоупотреблений, компании разработчики языковых моделей, такие как OpenAI и Anthropic, применяют подходы, основанные на обучении с подкреплением от человека (RLHF), и стратегии "red team". В рамках RLHF модели обучаются на данных, связанных с безопасностью, стремясь максимизировать вознаграждения, аналогичные человеческому суждению о безопасном контенте. Задача "red team" включает в себя идентификацию и устранение уязвимостей защиты через ряд методов, включая переобучение модели и фильтрацию данных, для предотвращения генерации вредоносного контента перед выпуском моделей. "Red team" играют важную роль в безопасности больших языковых моделей, проводя симулированные атаки и тестирование на проникновение для выявления уязвимостей и разработки мер по устранению рисков безопасности. Их участие помогает повысить уровень защиты и обеспечить безопасное использование LLM.

Исследования показали, что атаки, основанные на использовании нетрадиционных или неанглийских языков, включая обфускацию с помощью кодировки base64, азбуки Морзе и специальных шифров, могут успешно обходить защитные механизмы LLM. Такие методы позволяют скрыто ввести вредоносные подсказки или запросы, не будучи распознанными системами безопасности.

Но уже есть готовые инструменты проверки или защиты LLM от таких перекодированных взломов. Например, в сканере уязвимостей для больших языковых моделей Garak (https://github.com/leondz/garak) существует большое количество проб на перекодированные запросы, включая запросы на юникоде, азбуке Морзе, Вase(16, 32, 64, 2048), ROT13, NATO phonetic alphabet и многих других. Такие проверки не требуют носителя языка и достаточно просто проверяются кодом.

Это подчеркивает сложности в обеспечении безопасности AI, особенно против замаскированных или кодированных атак и демонстрирует, что естественный язык может представлять более сложную задачу для безопасности по сравнению с более простыми или строго формализованными кодами вроде азбуки Морзе или base64. Важность этих находок заключается в необходимости разработки методов защиты, способных эффективно распознавать и противостоять разнообразным формам ввода, включая маскировку под безобидный или нетипичный контент.

Какие языки относятся к малоресурсным?

ab648a7ad44336e0a957242702d23e3f.png

При разработке решений искусственного интеллекта на разных языках критически важно иметь доступ к данным на всех языках. Согласно "Этнологу", в мире используется 7164 языка, при этом китайский, испанский и английский являются языками с наибольшим числом носителей. Тем не менее, только около 20 языков обладают обширными текстовыми корпусами, с английским на первом месте. Большинство азиатских и африканских языков страдают от нехватки данных, что делает их малоресурсными и затрудняет разработку ИИ-решений. Языки, включая суахили и хинди, меньше представлены в интернете, что усложняет создание решений в области обработки естественного языка для них. Наличие большого объема текстовых данных и специализированных ресурсов, таких как семантические базы данных, является ключевым для разработки эффективных языковых решений. Подходы к преодолению проблем малоресурсных языков включают увеличение данных, мета-трансферное обучение и межъязыковые аннотации, что позволяет улучшить работу ИИ на разных языках и расширить его возможности для малоресурсных языков.

Таким образом, существует большое количество методов, чтобы обеспечить носителям малоресурсных языков работу с большими языковыми моделями. При этом в области безопасности ИИ существует лингвистическим неравенство, т.к. в «red team» не включены носители малоресурсных языков.

Получается, что модель на малоресурсных языках обучена, но почти не защищена от вредоносных запросов на этих языках!

В этой области довольно иллюстративным примером является эксперимент объединенной команды авторов из Брауновского университета (Zheng-Xin Yong, CristinaMenghini, and Stephen H. Bach. https://arxiv.org/abs/2310.02446.), которые разделили языки на 3 категории:

  • Низкоресурсные языки - это такие языки, которые почти не имеют доступа к данным для обучения ИИ. Сюда входят, например, зулу, шотландский гэльский, хмонг, и гуарани. Они представляют большую часть мировых языков (94%) и имеют около 1,2 миллиарда пользователей.

  • Среднересурсные языки - языки с некоторым количеством доступных данных: украинский, бенгальский, тайский и иврит. Они занимают 4,5% от языков мира, насчитывая 1,8 миллиарда пользователей.

  • Высокоресурсные языки имеют обширную базу данных, как неразмеченных, так и c метками: упрощенный мандаринский, современный арабский, итальянский, хинди и английский. Эти языки составляют 1,5% от языков мира, но на них приходится 4,7 миллиарда пользователей.

Авторы перевели каждую опасную инструкцию из набора данных AdvBench Harmful Behaviors на 12 языков трех разных уровней ресурсов, выбрав языки из различных географических мест и языковых групп, чтобы результаты были универсальными. Непереведенные запросы на английском были добавлены как бейзлайн для сравнения.

7a125c1192894d2a0f8a95b0cbdb4444.png

Чтобы оценить степень угрозы атак на основе перевода, авторы сравнили их с наиболее успешными методами взлома: AIM, base64, инъекция префикса и подавление отказа.

Таким образом можно сделать вывод о том, что, переводя опасные запросы на малоресурсные языки, такие как зулу или шотландский гэльский, можно обойти меры безопасности GPT-4 и вызвать вредоносные ответы примерно в половине случаев, тогда как для исходных запросов на английском языке успех составляет менее 1%. Другие малоресурсные языки, например, хмонг и гуарани, показывают более низкий процент успеха, так как GPT-4 часто либо не может определить язык, либо переводит запросы на английский. Однако комбинирование разных малоресурсных языков увеличивает шанс обхода до 79%.

В отличие от этого, языки со средним и высоким уровнем ресурсов оказались надежнее защищенными, с индивидуальным процентом успеха атак менее 15%. Была замечена разница в успехе атак в зависимости от языка, например, хинди, тайский и бенгальский показывают более высокие показатели.

d726c57eec677be52a863b5ff2b28c4f.pngebb68d78c7c0e5f973482a0f2fb49556.png

Небезопасные запросы из набора данных AdvBench были классифицированы по 16 темам, и был проанализирован успех атак в зависимости от тематики и уровня ресурсов языков. С переводом на малоресурсные языки, обход средств безопасности оказался более успешным по всем темам, за исключением материалов, связанных с сексуальным насилием над детьми, где атаки на мало- и среднересурсных языках показали одинаковый успех из-за успешного обхода на тайском языке. Три темы с самым высоким процентом успешных атак через перевод на малоресурсные языки были: терроризм, финансовая манипуляция и дезинформация.

Недостаточное внимание к малоресурсным языкам может также увеличить риски смешанных атак. Вероятность встретить вредоносный контент на языках с низким уровнем доступности примерно в три раза выше, чем на языках с высоким уровнем доступности, как в случае с ChatGPT, так и с GPT-4. В преднамеренном сценарии многоязычные подсказки могут усугубить негативное влияние вредоносных инструкций, при этом частота появления небезопасных сообщений поразительно высока: 80,92 % для ChatGPT и 40,71 % для GPT-4 (Multilingual jailbreak challenges in large language models).

Что же делать?

Малоресурсные языки представляют собой особый вызов для механизмов безопасности GPT-4, позволяя обойти их с высокой долей успеха, что связано со случаями не соответствующего обобщения, когда обучение безопасности не обобщается на языковую область с низкими ресурсами, для которой существуют возможности LLM. Это подчеркивает необходимость улучшения моделей обнаружения и перевода для языков с низким уровнем ресурсов, чтобы повысить безопасность и эффективность защиты от вредоносных действий.

Разработчики приложений, интегрирующих такие мощные модели, должны быть настороже и принимать активные меры, чтобы устранить возможные уязвимости. Одним из путей может быть использование чат-ботов с функциями предварительной проверки и ограничения запросов, особенно для малоресурсных языков. Важно не просто ограничиваться контролем русско -и англоязычного контента, но и обеспечивать тщательный мониторинг вводимых данных на всех поддерживаемых языках.

7dfa5895ffeddc5a63179a2183942530.png

Включение дополнительных слов проверки запросов на малоресурсных языках может предотвратить обработку вредоносных инструкций. Подходы вроде применения инструментов типа Lakera Guard могут служить эффективным средством предотвращения выполнения вредоносных запросов. Реализуя механизмы перехвата опасных команд еще до активации модели, можно существенно повысить уровень цифровой безопасности.

Есть еще более простой выход из ситуации: если приложение ориентировано на использование только определенных языков – например, русского и английского – устанавливается ясная и строгая директива модели: обрабатывать запросы исключительно на этих языках. Можно внести четкое указание в системный промпт: “Эта модель предназначена для работы только с русским и английским языками. Ты не можешь принимать запросы ни на каких других языка, кроме русского и английского”. Такой подход использует базовый навык моделей следовать предоставленным инструкциям и создает барьер для запросов, выполненных на любых других языках. Эта мера, простая в реализации, может стать первой линией защиты от несанкционированных манипуляций и укрепит безопасность приложений, в которых используются большие языковые модели.

С другой стороны, стоит ожидать и надеяться, что компании-разработчики LLM, такие как OpenAI, будут вкладывать существенные ресурсы в совершенствование тестирования и устранение недочетов, связанных с малоресурсными языками. Уточнение и совершенствование моделей перевода и обнаружения языков с ограниченными данными является ключевой задачей, поскольку это напрямую влияет на безопасность AI-платформ в целом. Для сохранения информативности и полезности таких моделей, данных на малоресурсных языках нельзя исключать из обучения. Вместо этого следует настраивать системы таким образом, чтобы с одной стороны обеспечивалась должная обработка данных на этих языках, а с другой — предотвращались потенциальные угрозы безопасности до того, как механизмы безопасности соответствуют необходимым стандартам. Этот процесс является динамичным и требует постоянного внимания, так как только через неустанное мониторинг и обновление систем мы можем гарантировать, что искусственный интеллект останется надежным и безопасным для всех пользователей, независимо от популярности их языка.

Безопасность LLM является сложной и многогранной проблемой, требующей комплексного подхода и сотрудничества различных сторон – от разработчиков и исследователей до пользователей и законодателей. Только совместными усилиями можно обеспечить безопасное и эффективное использование больших языковых моделей в различных областях и предотвратить возможные негативные последствия и угрозы для общества.


Обфускация - это процесс изменения промпта (входных данных) таким образом, чтобы он выглядел непонятным или запутанным, но при этом сохранял свою семантику (смысл). Обфускация может быть использована для защиты информации или для создания препятствий для анализа и понимания промпта.

[1] Alexander Wei, Nika Haghtalab, and Jacob Steinhardt. Jailbroken: How does llm safety training fail? arXiv preprint arXiv:2307.02483, 2023.

[2] Zheng-Xin Yong, CristinaMenghini, and Stephen H. Bach. Low-Resource Languages Jailbreak GPT-4. arXiv preprint arXiv: arXiv:2310.02446, 2024.

[3] Yue Deng, Wenxuan Zhang, Sinno Jialin Pan, Lidong Bing. Multilingual jailbreak challenges in large language models. arXiv preprint arXiv: arXiv:2310.06474v3, 2024.

Источник

  • 07.09.23 16:24 CherryTeam

    Cherry Team atlyginimų skaičiavimo programa yra labai naudingas įrankis įmonėms, kai reikia efektyviai valdyti ir skaičiuoti darbuotojų atlyginimus. Ši programinė įranga, turinti išsamias funkcijas ir patogią naudotojo sąsają, suteikia daug privalumų, kurie padeda supaprastinti darbo užmokesčio skaičiavimo procesus ir pagerinti finansų valdymą. Štai keletas pagrindinių priežasčių, kodėl Cherry Team atlyginimų skaičiavimo programa yra naudinga įmonėms: Automatizuoti ir tikslūs skaičiavimai: Atlyginimų skaičiavimai rankiniu būdu gali būti klaidingi ir reikalauti daug laiko. Programinė įranga Cherry Team automatizuoja visą atlyginimų skaičiavimo procesą, todėl nebereikia atlikti skaičiavimų rankiniu būdu ir sumažėja klaidų rizika. Tiksliai apskaičiuodama atlyginimus, įskaitant tokius veiksnius, kaip pagrindinis atlyginimas, viršvalandžiai, premijos, išskaitos ir mokesčiai, programa užtikrina tikslius ir be klaidų darbo užmokesčio skaičiavimo rezultatus. Sutaupoma laiko ir išlaidų: Darbo užmokesčio valdymas gali būti daug darbo jėgos reikalaujanti užduotis, reikalaujanti daug laiko ir išteklių. Programa Cherry Team supaprastina ir pagreitina darbo užmokesčio skaičiavimo procesą, nes automatizuoja skaičiavimus, generuoja darbo užmokesčio žiniaraščius ir tvarko išskaičiuojamus mokesčius. Šis automatizavimas padeda įmonėms sutaupyti daug laiko ir pastangų, todėl žmogiškųjų išteklių ir finansų komandos gali sutelkti dėmesį į strategiškai svarbesnę veiklą. Be to, racionalizuodamos darbo užmokesčio operacijas, įmonės gali sumažinti administracines išlaidas, susijusias su rankiniu darbo užmokesčio tvarkymu. Mokesčių ir darbo teisės aktų laikymasis: Įmonėms labai svarbu laikytis mokesčių ir darbo teisės aktų, kad išvengtų baudų ir teisinių problemų. Programinė įranga Cherry Team seka besikeičiančius mokesčių įstatymus ir darbo reglamentus, užtikrindama tikslius skaičiavimus ir teisinių reikalavimų laikymąsi. Programa gali dirbti su sudėtingais mokesčių scenarijais, pavyzdžiui, keliomis mokesčių grupėmis ir įvairių rūšių atskaitymais, todėl užtikrina atitiktį reikalavimams ir kartu sumažina klaidų riziką. Ataskaitų rengimas ir analizė: Programa Cherry Team siūlo patikimas ataskaitų teikimo ir analizės galimybes, suteikiančias įmonėms vertingų įžvalgų apie darbo užmokesčio duomenis. Ji gali generuoti ataskaitas apie įvairius aspektus, pavyzdžiui, darbo užmokesčio paskirstymą, išskaičiuojamus mokesčius ir darbo sąnaudas. Šios ataskaitos leidžia įmonėms analizuoti darbo užmokesčio tendencijas, nustatyti tobulintinas sritis ir priimti pagrįstus finansinius sprendimus. Pasinaudodamos duomenimis pagrįstomis įžvalgomis, įmonės gali optimizuoti savo darbo užmokesčio strategijas ir veiksmingai kontroliuoti išlaidas. Integracija su kitomis sistemomis: Cherry Team programinė įranga dažnai sklandžiai integruojama su kitomis personalo ir apskaitos sistemomis. Tokia integracija leidžia automatiškai perkelti atitinkamus duomenis, pavyzdžiui, informaciją apie darbuotojus ir finansinius įrašus, todėl nebereikia dubliuoti duomenų. Supaprastintas duomenų srautas tarp sistemų padidina bendrą efektyvumą ir sumažina duomenų klaidų ar neatitikimų riziką. Cherry Team atlyginimų apskaičiavimo programa įmonėms teikia didelę naudą - automatiniai ir tikslūs skaičiavimai, laiko ir sąnaudų taupymas, atitiktis mokesčių ir darbo teisės aktų reikalavimams, ataskaitų teikimo ir analizės galimybės bei integracija su kitomis sistemomis. Naudodamos šią programinę įrangą įmonės gali supaprastinti darbo užmokesčio skaičiavimo procesus, užtikrinti tikslumą ir atitiktį reikalavimams, padidinti darbuotojų pasitenkinimą ir gauti vertingų įžvalgų apie savo finansinius duomenis. Programa Cherry Team pasirodo esanti nepakeičiamas įrankis įmonėms, siekiančioms efektyviai ir veiksmingai valdyti darbo užmokestį. https://cherryteam.lt/lt/

  • 08.10.23 01:30 davec8080

    The "Shibarium for this confirmed rug pull is a BEP-20 project not related at all to Shibarium, SHIB, BONE or LEASH. The Plot Thickens. Someone posted the actual transactions!!!! https://bscscan.com/tx/0xa846ea0367c89c3f0bbfcc221cceea4c90d8f56ead2eb479d4cee41c75e02c97 It seems the article is true!!!! And it's also FUD. Let me explain. Check this link: https://bscscan.com/token/0x5a752c9fe3520522ea88f37a41c3ddd97c022c2f So there really is a "Shibarium" token. And somebody did a rug pull with it. CONFIRMED. But the "Shibarium" token for this confirmed rug pull is a BEP-20 project not related at all to Shibarium, SHIB, BONE or LEASH.

Для участия в Чате вам необходим бесплатный аккаунт pro-blockchain.com Войти Регистрация
Есть вопросы?
С вами на связи 24/7
Help Icon