Искусственный интеллект (ИИ) уже вышел за рамки академических лабораторий и стал неотъемлемой частью нашей повседневной жизни. От систем рекомендаций в интернет-магазинах до ассистентов и автономных транспортных средств — ИИ непрерывно трансформирует множество аспектов нашего общества. Однако, вместе с возможностями, которые он предоставляет, возникает и беспокойство относительно его потенциальных угроз.
Широко обсуждаемые сценарии, в которых машины могут обрести сознание или начать действовать вопреки интересам человечества, стали темой, как вечерних телевизионных ток-шоу, так и серьёзных академических исследований. Захватывающие сюжетные линии научно-фантастических произведений превращаются в массовом сознании в очередную фобию.
Меня зовут Тимур, эту статью я предлагаю вашему вниманию в качестве руководителя команды разработки (Development Team Leader) международного проекта по созданию сильного искусственного интеллекта (AGI) для поддержки предпринимателей среднего и малого бизнеса (SME). Но сегодня разговор почти не связан с тем, над чем без малого год занимается наша команда.
Сегодня я бы хотел поговорить о безопасности искусственного интеллекта. В этой статье я хочу поделиться своим взглядом на эту проблему, проведя нестрогий анализ возможных рисков. Также мне бы хотелось остановиться на некоторых технологических и технических аспектах создания сильного ИИ и в некоторой степени поспорить с философским подходом к теме безопасности искусственного интеллекта и синтетического сознания.
Я знаю, что не все члены Сообщества любят формат «long read». Именно ориентируясь на них, я вынес некоторые рассуждения и поясняющие примеры в блоки, названные мною «лирические отступления» — их запросто можно не читать. Но если кому‑то ближе формат поста, то я сразу «телеграфной строкой» приведу резюме выводов, к которым пришёл в итоге:
Бояться уже пора, но не ИИ, а человека. ИИ может нести экзистенциальный риск человечеству лишь в случае, если разработчики преднамеренно заложат в него подобные цели. Одним словом, всё как всегда.
Экономические и социальные риски существуют, но их оценка сильно искажена политическими манипуляциями различного толка. Что же касательно персональных рисков, то ИИ их не увеличивает.
Теперь можно сразу переходить в комментарии или к чтению публикаций других авторов. Текст же ниже предлагается в качестве воскресного чтива тем, кому интересно, каким образом я пришел к подобным выводам.
Чтобы не спорить друг с другом в комментариях, подразумевая под тем или иным термином разные сущности, давайте определимся с понятиями. Проблема в том, что четкого определения понятия «искусственный интеллект», не существует. Люди просто договорились считать искусственным интеллектом систему, способную выполнять задачи, которые обычно требуют человеческого интеллекта. Далее, как правило, идет перечисление таких задач: восприятие, распознавание образов, принятие решений и языковая коммуникация или что-то подобное.
Но это общее определение не раскрывает, а что собой представляет такая система, что такое «обычно», и какого рода задачи неизменно требуют именно человеческого интеллекта. И где грань между интеллектом и алгоритмом. Поэтому специалисты в области информатики расшифровывают понятие ИИ несколько иначе — как область науки, которая разрабатывает и изучает методы и программное обеспечение, позволяющее машинам воспринимать окружающую среду и использующие обучение для повышения шансов на достижение определенных целей.
Как раз цели позволили договориться об уровнях искусственного интеллекта по критерию сложности решаемых задач:
Слабый ИИ (weak, narrow, AI). Это узко-специализированный ИИ, который способен выполнять конкретные задачи. В соответствующих процессах этот ИИ способен потенциально заменить человека, показывая результативность и эффективность, сопоставимую с подготовленным и обученным для данной области специалистом.
ПримерыРеальных примеров слабого ИИ множество. Например, это может быть предложение рекомендаций продуктов, финансовый анализ или управление транспортным средством.
Сильный ИИ (strong, general AI, AGI). Этот уровень предполагает, что ИИ‑система обладает способностями человека в широком спектре областей. Отличительной чертой такого ИИ является его способность самостоятельно обучаться, адаптироваться к новым условиям и решать разнообразные комплексные и комбинированные задачи в изменяющихся условиях, показывая результативность и эффективность, не хуже подготовленного и обученного для данной области специалиста.
ПримерыПолноценных примеров сильного ИИ пока нет. Например, это может быть ИИ‑учитель, способный персонализировать обучение для каждого ученика, который может оценивать знания, давать обратную связь, адаптировать учебный план и так далее.
Другой пример — «электронный доктор Хаус» — система, способная самостоятельно моделировать заболевания, проводить диагностику и назначать лечение пациенту, корректировать свои действия на базе вновь поступающих данных об отклике на лечение.
Еще пример — то, что создает наша команда — ИИ‑партер предпринимателя, способный помочь ему вести свой бизнес, давая персонифицированные и контекстные рекомендации и советы, самостоятельно выполняющий анализ внешней и внутренней среды, генерирующий идеи, помогающая принимать обоснованные управленческие решения, планировать действия.
Cверхинтеллект или супер-ИИ (artificial superintelligence, ASI). Это гипотетическая программная ИИ-система, интеллектуальные возможности которой выходят за рамки человеческого интеллекта. На самом фундаментальном уровне этот сверхразумный ИИ обладает передовыми когнитивными функциями и высокоразвитыми мыслительными способностями, превосходящими любого человека.
ПримерыСупер‑ИИ в настоящей время — предмет мечтаний. Предполагается, что обладая супер‑ИИ, люди могли бы использовать его для решений в самых сложных проблем, стоящих, например, перед здравоохранением, финансами, научными исследованиями, политикой или любой отраслью. Такого продвинутого мышления может быть достаточно, чтобы решить самые сложные, например, медицинские загадки или раскрыть тайны физики.
По-видимому, создание супер-ИИ потребует не только архитектурных инноваций, но и совершенно иной элементной базы и инфраструктуры вычислений.
Для всех трех уровней ИИ характерно то, что все они используют данные для обучения — извлечения скрытых в них закономерностей — информации, умеют определенным образом хранить результаты обучения, а также при необходимости восстанавливать или создавать нужную информацию. Отличия слабого ИИ от сильного состоит в том, что сильный ИИ — адаптивная система. То есть, часть информации эта система способна извлекать из внешнего окружения самостоятельно, формируя некоторое подобие опыта.
Но где грань между искусственным интеллектом и продвинутым алгоритмом? Иногда кажется, что ее нет. Но она существует! Постараюсь очень кратко донести одну не совсем очевидную мысль.
Человек в процессе эволюции совершил прорыв благодаря способности передавать накопленные знания от поколения к поколению. ИИ в какой‑то степени (той или иной; да, всё спорно) становится приемником человека — он использует, предоставленные человеком знания, накопленные им в какой‑то области, для своего обучения, и использует результат этого обучения для достижения определенной человеком цели. При этом AGI‑системы должны обладать способностью использовать новую информацию для формирования новых знаний и адаптации с их помощью к изменениям, они должны всегда соответствовать текущему контексту — сохранять тот же уровень результативности и (или) эффективности в достижении заданной цели.
Лирическое отступлениеИменно эта преемственность знаний и отличает искусственный интеллект от алгоритма. Все крутиться вокруг знаний. Да, это утверждение спорно.
Например, шахматный движок Stockfish, превосходящий 99,9% человечества в игре в шахматы, все же это не ИИ — он не использует накопленные в виде теории шахмат знания, он не проходил обучение на множестве партий, сыгранными людьми. Это замечательный, продвинутый, доступный, но лишь алгоритм. И да, это утверждение тоже спорно.
А вот движок шахматного сайта, отлавливающий читеров, использующих Stockfish в игре с «живыми» партнерами, обученный на том, как играют люди, а как играет машина — это ИИ.
И это тоже спорно. Например, Дэвид Чалмерс считает, что правильных видов вычислений достаточно для обладания сознательным разумом. По его мнению, любая система, реализующая определенные вычисления, является разумной. Забавно, но и это можно оспорить.
Алгоритмы — это предопределённые последовательности инструкций, решающие конкретные задачи или проблемы. Они применяют данные для выполнения определённых задач. Знания в алгоритме заранее заложены непосредственно в сам алгоритм. При этом разработчику известно, как алгоритм обрабатывает информацию и достигает результаты.
Искусственный интеллект, напротив, включает системы, которые могут учиться, адаптироваться и принимать решения в изменяющихся условиях. ИИ использует данные в основном для обучения, а не для прямой их обработки, хотя и не исключает это на этапе использования. Вместо хранения самих данных, ИИ сохраняет результаты обучения. Знания представлены в форме моделей, полученных из данных. Хотя принципы и архитектура ИИ понятны разработчику, конкретные детали процесса принятия решений остаются скрытыми.
Память — еще один критерий классификации ИИ, который показывает, как такие системы применяют свои возможности обучения для обработки данных, реагирования на стимулы и взаимодействия с окружающей средой. С этой точки зрения ИИ также можно разделить по типам:
Реактивный машинный ИИ — это самый фундаментальный тип ИИ. Реактивные машины действуют по принципу «стимул‑отклик». Они могут реагировать на непосредственные запросы и задачи, но не обладают памятью, позволяющей учиться на прошлом опыте или улучшать за счет его свою функциональность. Кроме того, реактивные машины могут реагировать только на ограниченный набор стимулов — комбинацию входных данных.
ПримерыНа практике реактивные машины полезны для выполнения основных автономных функций, таких как фильтрация спама из вашего почтового ящика или рекомендации товаров на основе вашей истории покупок.
Например, медиа-платформы, такие как Netflix, часто используют механизмы рекомендаций на базе ИИ, которые обрабатывают данные из истории просмотра пользователя, чтобы определить и предложить, что они, скорее всего, будут смотреть дальше.
ИИ с ограниченной памятью — этот тип ИИ может хранить прошлые данные и использовать их для прогнозирования. Это означает, что он активно создает свою собственную ограниченную краткосрочную базу знаний и выполняет задачи на основе этих знаний.
ПримерыСегодня модель ограниченной памяти представляет собой большинство приложений ИИ. Его можно применять в широком диапазоне сценариев: от небольших приложений, таких как чат-боты, до беспилотных автомобилей и других сложных вариантов использования.
ИИ теории разума (Theory of Mind AI) — это сложная концепция ИИ, предполагающая возможность машины обладать долгосрочной памятью (воспоминаниями) и способностью воспринимать, улавливать и воспроизводить эмоции.
ПримерыРафаэль Тена, старший исследователь ИИ в страховой компании Acrisure , привел пример ИИ теории разума.
Беспилотный автомобиль в большинстве случаев может работать лучше, чем водитель-человек, потому что он не будет совершать те же человеческие ошибки. Но если вы, как водитель, знаете, что ребенок вашего соседа имеет обыкновение играть на улице после школы, то вы будете инстинктивно знать, что нужно замедляться, проезжая подъездную дорожку этого соседа, чего не сделал бы автомобиль с ИИ, оснащенный базовой ограниченной памятью.
Классификация по уровням или памяти ИИ не являются строгой таксономией. Она раскрывает скорее «сюжетные линии», которые могут сказать нам, как далеко продвинулся ИИ, куда он движется и что нас ждет в будущем.
На обывательском уровне, да и чего греха таить, и не только на нём, люди часто путают два понятия — искусственный интеллект и искусственное (синтетическое) сознание (ИС, AC).
В самом простом виде сознание — это осознание внутреннего и внешнего существования. Искусственное сознание — это гипотетическая концепция, которая предполагает наличие у ИИ признаков разумности — самосознания, эмоций и субъективного восприятия мира. Оно включало бы способность к осмыслению и самоосмыслению, мотивацию и, возможно, интуицию и осмысленные эмоциональные реакции.
Беда состоит в том, что «искусственное сознание» — это, скорее философская, нежели техническая концепция, которая долгое время занимала центральное место в философии.
Лирическое отступлениеВ древнегреческой философии сознание часто рассматривалось как процесс мышления или самосознания. Платон утверждал, что оно связано с душой и рациональным мышлением, в то время как Аристотель видел его как свойство разума, способного к самопознанию.
В средние века христианские философы, такие как Фома Аквинский, интегрировали религиозные представления в понятие сознания, считая его даром божественного происхождения.
Философы Просвещения, такие как Декарт, Локк и Кант, развивали идею сознания через призму самосознания, субъективности и внутреннего опыта. Декарт с его знаменитым выражением «Cogito, ergo sum» («Я мыслю, следовательно, я существую») подчеркнул, что сознание — это основа для уверенности в собственном существовании.
В 19 и 20 веках философы, такие как Фрейд, Хайдеггер и Сартр, продолжили исследовать сознание, включая темы подсознания, бытия и человеческой свободы. Введение психоанализа Фрейдом расширило понимание сознания за пределы непосредственно осознаваемого опыта.
Современные дебаты о сознании часто связаны с нейронаукой и искусственным интеллектом, где исследуются биологические основы сознания и возможность создания сознательных машин.
Моё личное отношение к философии весьма неоднозначное. Как мне представляется, к ней прибегают, когда научных знаний о предмете нет вообще или катастрофически не хватает для хоть мало-мальски правдоподобных гипотезах, а говорить о Божественном в данном контексте не хочется или неудобно по тем или иным причинам.
С другой стороны, безусловно, именно философия определила почти всё, что составляет нашу современную культуру – компонент общества, в котором сосредоточены общественные ценности. Эти ценности транслируются как внутри, так и между поколениями, и аккумулируют опыт, который мы не в состоянии передать следующим поколениям генетически. И именно эти ценности со временем закрепляются в генах через механизмы естественного отбора.
Причем тут всё это? Да при том, что невозможно определить риск чего-то, что не имеет четких измеримых критериев. Например, в биологии и когнитивной науке определение наличия сознания у различных существ — весьма сложная задача. Например, для оценки наличия сознания у животных биологи обычно используются несколько ключевых критериев:
нейрофизиологические признаки: наличие определённых структур мозга (например, неокортекса), связанных с процессами обработки информации на высоком уровне;
самоосознание (самоидентификация): это способность отличать себя от других особей того же вида; для оценки применяется, например, тест с зеркалом, который проверяет, может ли животное узнать себя в зеркале;
поведенческие индикаторы: способность к поведению, которое не является рефлексивным ответом на внешние стимулы, например, сложные формы обучения, использование инструментов и способность к новаторству;
коммуникационные способности: способность использовать сложные формы коммуникации, которые могут включать символы или жесты, что может указывать на наличие высокого уровня когнитивных функций и потенциальное сознание.
эмоциональные реакции: способность испытывать эмоции, которые видимы через изменения в поведении или физиологии, что также может быть признаком сознания.
Однако, нет единого, универсально принятого мнения о том, как именно должны быть измерены или интерпретированы эти критерии для однозначного определения наличия сознания, «натурального» или синтетического — без разницы. И возвращаясь к нашей теме, мы должны сделать несколько важных замечаний:
Соответствие ИИ‑системы даже уровню супер‑ИИ, её возможность «делать всё, что может сделать человеческий мозг и даже больше» совершенно не означает наличие у такой системы искусственного сознания.
Есть вероятность, что мы примем за сознание то, что на самом деле таковым не является. Связано это с антропоморфизацией — когнитивным процессом, при котором люди приписывают человеческие качества, такие как мысли, чувства, намерения, цели, неодушевленным предметам, животным или явлениям природы.
И наоборот, даже если ИС возникнет, не факт, что мы сможем объективно это идентифицировать. И связано это с неопределенностью понятия сознания и сложностью его оценки.
Создание системы с искусственным сознанием, скорее всего, возможно только на уровне сильного искусственного интеллекта (AGI) и выше.
Итак, теперь, когда нам известны все источники угроз, сформулируем исходящие от них риски.
Я не стану приводить логические выводы относительно перечня рисков и даже выносить соответствующую логику в «лирические отступления». Не претендуя на полноту, я просто приведу свою классификацию рисков (в порядке убывания «фатальности»):
Экзистенциальные риски — безусловно, представляют собой наибольший уровень угрозы, заключающийся в том, что вышедший из‑под контроля ИИ или ИС может действовать вопреки интересам человечества на глобальном уровне, вплоть до полного истребления человеческой расы.
Трансформационные риски — это риски, связанные с масштабными изменениями в социальных, экономических и политических структурах стран и отраслей под воздействием массового внедрения ИИ.
Риски неправомерного использования ИИ — эти риски включают в себя умышленное причинение вреда тем или иным социальным группам или обществу в целом, осуществляемое с помощью ИИ.
Социальные риски — это угрозы, связанные с усилением социального неравенства, потерей рабочих мест и изменениями в культурных и межличностных взаимодействиях, вызванные массовой автоматизацией и использованием ИИ.
Персональные риски — это угрозы, связанные с неверными (ошибочными) решениями, принятыми ИИ, которые могут нанести вред или ущерб конкретному человеку.
Этические и моральные риски — на мой взгляд, это наименьший уровень угрозы, связанный с нарушением устоявшихся человеческих культурных и этических норм, причинением, скорее, морального вреда определенным социальным группам или отдельным лицам.
Возможно, вы дополните или скорректируете этот перечень в комментариях — я приму любую точку зрения, и даже не буду спорить.
Концепт «мотив, средство, возможность» поможет нам понять, при каких условиях AGI или AC способны причинить экзистенциальный ущерб человеку — например, истребить человечество как вид. Причем, сделать это не с позиции философии, а с сугубо естественно‑научной точки зрения, так как этот концепт отлично подчиняется законам формальной логики.
Основная идея этой концепции состоит в том, что совершающий деяния субъект, должен иметь мотив, средство и возможность совершить его. И при отсутствии хотя бы одного из этих условий, деяние совершено быть не может. И к искусственному интеллекту это относится в той же степени, в которой это относится и к интеллекту «натуральному».
Лирическое отступлениеКонцепция «мотив, средство, возможность» традиционно используется в криминологии для анализа и предсказания преступного поведения. Мотив помогает понять причины совершенных или совершаемых деяний. Мотив может быть опосредованным, то есть не связанным напрямую с наступлением преступного результата, например, при совершении деяния по неосторожности.
Средство обозначает инструменты или методы, доступные для достижения преступной цели. Средство может быть нейтральным, то есть не предназначенным для причинения вреда.
Возможность предполагает наличие условий, которые позволяют деянию быть осуществленным, например, доступ к месту преступления или наличие времени для его совершения. Возможность предотвратить наступление преступного результата всегда имеется, но не всегда реализуется из-за бездействия, недостаточного действия или наличия умысла у субъекта, совершающего деяние.
Но эта же концепция может представлять интерес и для разработки ИИ, особенно в контексте создания AGI-систем и искусственного сознания. Мотив в контексте ИИ может рассматриваться как задача или цель, для достижения которой система была разработана. Средства — это методы и данные, которые система может использовать для решения задач. Для AGI и AC систем это также будет включать методы адаптации и самообучения, а также доступ информации о макро- и микроокружении пользователя и его внутреннего состояния. Возможность означает для ИИ наличие технической и программной инфраструктуры для функционирования системы, включая вычислительные мощности и доступ к сетям. А для AGI и AC систем, кроме того, важна возможность оперировать в различных средах.
Когда вы проектируете ИИ‑систему, то средства и возможности — это то, чем вы сами, как разработчик, её обеспечиваете. Разрабатывая ИИ‑пилота автомобиля, вы сами дадите ему исполнительными механизмами и доступ ко всем, нужным для выполнении цели, элементам. Ключевым для любой ИИ-системы становится мотив — то, почему она действует.
Вопрос этот кажется идиотским, ведь он имеет очевидный ответ: мотив — это воплощение цели функционирования системы, которую определяет разработчик. В конце концов, машина же не может иметь свой собственный мотив!
Стоп! А почему, собственно, не может?! Отличная идея! Если мы хотим создать автономную систему, способную к самостоятельным действиям, то это потребует наличия внутренних механизмов принятия такой системой решений. Встроенная система мотивации может служить регулирующим механизмом, позволяя сильному ИИ действовать без внешнего вмешательства.
Есть много рациональных причин пойти на этот шаг. Например, теория игр демонстрирует, как рациональное поведение агентов влияет на исходы взаимодействий. Если ИИ будет иметь собственные мотивы, он сможет более точно взаимодействовать в социальных и экономических контекстах, оптимизируя свои стратегии для достижения заданных целей.
Или, например, человек — наша система мотивации формируется двумя путями. С одной стороны, наши гены передают нам рефлексы, инстинкты и эмоции — механизм, созданный эволюцией для выживания. С другой стороны, человек в процессе взросления учится не только действиям, но и причинам для этих действий. До возраста 6–7 лет воспитание человека включает формирование ценностей и мотивации, которые направляют его действия в течение всей его последующей жизни (пламенный привет няне вашего ребёнка или воспитателю детского сада). Это механизмы адаптации, а вернее — выживания.
Так же и сильный ИИ с неизбежностью должен (и будет) оснащен собственной системой мотиваций, чтобы его действия были целесообразными и адаптивными. Если мы стремимся создать ИИ, который не просто выполняет задачи, а стремится к улучшению своих функций и адаптации к меняющимся условиям, то создание внутренней мотивации становится ключевым элементом его разработки.
Посмотрим, а как этот механизм мотивации устроен в природе. Если очень упрощенно, то он основан на работе центров эмоциональной оценки, например, лимбической системы у млекопитающих.
Всё начинается с восприятия сенсорными системами организма внешних или внутренних сигналов. Это могут быть звуки, изображения, химические вещества (запахи, вкусы) или внутренние сигналы, такие как гормональные изменения. В мозгу, особенно в лимбической системе, происходит оценка раздражителей. Этот центр оценивает текущее состояние и насколько стимулы выглядят угрожающими для организма. Оценка весьма проста — «хорошо» или «плохо». Но не смотря на это в результате подобной оценки вырабатываются эмоции, такие как страх, гнев, радость или что‑то более сложное.
Эмоции активируют соответствующие поведенческие программы — поведенческие паттерны. Например, кислая мина на чьем‑то лице — это уже поведенческая программа, целью которой является социальная коммуникация через выражение соответствующей эмоции. Эти паттерны могут быть инстинктивными (врожденными) или приобретенными (наученными через опыт). Например, страх может вызвать инстинктивную реакцию бегства, замирания или агрессии, в то время как радость может привести к социальным взаимодействиям или игре. Забавно, то что большинство приобретенных паттернов являются адаптацией инстинктивных программ под сложившиеся культурные нормы.
Лирическое отступлениеВ последние годы учёные выработали общую схему организации инстинктивного поведения. Согласно этой схеме, определённый ключевой раздражитель может активировать конкретную программу поведения. Это происходит благодаря жёстко установленным, генетически обусловленным синаптическим связям между сенсорными и двигательными системами организма.
Одним из значительных прорывов в изучении механизмов запуска стереотипных действий (инстинктивного поведения) и реализации моторных программ стало открытие так называемых командных нейронов. Эти уникальные клетки мозга способны при активации инициировать выполнение определённых поведенческих актов. Это открытие помогло учёным лучше понять, как именно в нервной системе запускаются сложные последовательности действий.
В среднем у нормального взрослого человека со средним IQ есть более 4000 поведенческих паттернов, организованных в многоуровневую иерархическую структуру, позволяющую создавать сложное поведение. Наиболее простые паттерны связаны с рефлекторными реакциями, наиболее сложные, являясь комбинацией более простых, чаще связаны с условными рефлексами. В ходе экспериментов с собаками группе академика Павлова удавалось выработать у отдельных особей паттерны 4-го порядка. У некоторый людей можно наблюдать поведенческие паттерны до 20-го порядка.
То есть, эмоциональная оценка служит связующим звеном между восприятием стимулов и конкретными действиями, обеспечивая быструю и адаптивную реакцию организма на меняющуюся среду. Роль коры в этом процессе — торможение тех программ, которые либо не достаточно результативны или требуют затрат больших ресурсов. Этот процесс помогает организмам выживать и успешно функционировать в их естественной среде.
Конечно, вы можете воспроизвести этот механизм и в своей AGI‑системе. Подобный подход описан на Habr еще почти 15 лет назад, поэтому, я не стану излагать его детали. Отметим лишь главные черты:
AGI‑система должна обладать набором сенсоров, отражающих внутреннее состояние системы и состояние внешней среды (окружения).
AGI‑система должна самостоятельно выбирать определенные программы действий, основываясь на оценке этого состояния — «синтетических» эмоциях.
AGI‑система должна обладать базовым набором программы действий, созданными разработчиками системы на базе предварительного обучения — «инстинктов».
Адаптивность AGI‑системы должна обеспечиваться способностью генерировать новый опыт (действия; их результативность; требуемые ресурсы), улучшать и расширять предустановленные программы.
Хорошая новость состоит в том, что действительно, сильный ИИ (как минимум на уровне прототипа), оснащенный аналогом эмоций, может действовать более адаптивно в меняющихся условиях, подобно живым организмам. Но есть и плохие новости.
С точки зрения биологии, страх является одним из самых мощных мотиваторов. Это эволюционно сложившаяся реакция, которая служит для выживания, активируя борьбу или бегство в ответ на угрозы.
В современном мире страх не всегда связан с физической угрозой, но его влияние на поведение человека остаётся значительным и неизменным. Страх может проявляться в форме социальной тревожности, страха перед будущим, экономической нестабильностью и неопределенностью. Эти страхи могут вызвать не только избегающее поведение, но и агрессию. Агрессия в этом контексте часто является защитной реакцией, способом восстановления контроля над ситуацией, где человек чувствует себя уязвимым.
Наделяя AGI-систему функцией самозащиты мы создаем некий аналог страха. Эта функция защищает ИИ от внешних и внутренних угроз, которые могут нарушить его функционирование. Это могут быть механизмы для обнаружения и нейтрализации угроз, таких как кибератаки, физические повреждения или программные ошибки, механизмы защиты приватности и сохранения контроля над собственными процессами и данными. Также «синтетический страх» может усиливать функцию полезности — степень достижения поставленной перед ИИ цели.
Лирическое отступлениеДля своей AGI‑системы мы выбрали в качестве мотиватора самосохранения показатель вероятности банкротства бизнеса пользователя. Чем выше, рассчитанная на базе статистических данных, вероятность банкротства, тем выше уровень «синтетического страха», и тем с большей вероятностью будут заблокированы, например, программы (паттерны; сценарии) долгосрочного инвестирования, и тем выше вероятность выбора программ (паттернов; сценариев) антикризисных мер и экономии средств. Если же вероятность банкротства низкая, то выбор программы поведения системы определится под влиянием иных мотив.
Но ровно эта функция скрывает в себе целый пласт потенциальных угроз — этические, моральные, персональные и экзистенциальные риски. Если вами как разработчиком, будет допущена шибка выравнивая, например, между функцией полезности и страхом, то система с легкостью будет принимать решения, которые вам точно не понравятся.
Лирическое отступлениеВыравнивание или согласование ИИ предполагает обеспечение того, чтобы цели ИИ‑системы соответствовали целям ее проектировщиков, пользователей или широко разделяемым ценностям, объективным этическим стандартам или намерениям ее проектировщиков.
Например, если вы создадите AGI‑пилота для автономного автомобиля и при реализации механизма мотивации зададите функцию самосохранения, то он точно будет давить людей, если иное приведет к риску для него, и совершит попытку убежать, спасаясь от утилизации.
Но если вы реализуете механизм мотивации как функцию сохранения человека‑водителя, то многих неприятностей можно избежать. Многих, но не всех — он с легкостью машины примет решение пожертвовать пассажиром, если это повышает шанс сохранить водителя, и тем более это не исключает возможность нарушить правило «не сбивать пешеходов», если это спасет в данной ситуации жизнь пассажиров.
При проектировании AGI‑систем разработчик должен «сломать» обычные шаблоны своего человеческого мышления, потому, что AGI — это не человек, он действует в буквальной логике.
Когда сталкиваешься с этой проблемой впервые, то на ум приходит мысль, что широкая палитра наших эмоций — это результат выравнивания нашего интеллекта эволюцией. Правда механизм такой оптимизации достаточно жестокий — неудачные «попытки» просто вымерли.
Но проблема в том, что для некоторых систем исключить или трансформировать выгодным для целей проекта образом функцию самосохранения просто невозможно. Например, поставьте себя на месте разработчика автономного AGI ударного истребителя (а такие разработки идут полным ходом, поверьте). Вы с одной стороны, определяете функцию полезности, как население максимального урона противнику, включая живую силу. То есть вы допускаете причинение вреда человеку. А с другой стороны, вы используете «синтетический страх», как способ сохранить свою матчасть и инвестиции. И единственное что вам остается — отмахнуться от назойливых неприятных мыслей...
Конечно, у вас, наверное, сейчас возникает вопрос, а почему нельзя внедрить в AGI‑систему правила, которым она должна подчиняться. Например, те же законы робототехники Азимова звучат вполне достойно и разумно:
Нулевой закон робот не может причинить вред человечеству или позволить, чтобы человечеству был причинён вред из‑за бездействия робота.
Первый закон робот не может причинить вред человеку или позволить, чтобы человеку был причинён вред из‑за бездействия робота.
Второй закон робот должен подчиняться всем приказам, которые дают ему люди, за исключением случаев, когда эти приказы конфликтуют с Первым Законом.
Третий закон робот должен заботиться о своей безопасности в той мере, в которой это не конфликтует с Первым или Вторым Законом.
Не все так просто. Когда в своем проекте мы попробовали применять правила, встал вопрос, а можно ли их нарушать? Понятно, что первая мысль, которая приходит в голову — нельзя! Но мы быстро поняли, что такая система не будет работать. Дело в том, что по мере наращивания опыта, система дополняет не только программы действий, но и набор правил. Сначала 5-м, потом 6-м, 7-м, 2096-м и так далее. Со временем их становится так много — юридических, этических, моральных ограничений, что они просто блокируют любое действие системы.
Например, Нулевой закон робототехники может привести домашнего робота (AGI‑систему), которого попросили заказать сигареты, к блокировке программы действия — сигареты нанесут вред человеку. А попытка человека сделать заказ через «живого» курьера не даст роботу бездействовать. Последствия — просто непредсказуемы.
Тогда мы пришли к выводу, что правила нарушать можно, но за нарушение правил система должна получать «штраф». Какой? Это опять вопрос выравнивая. Главное другое — сравнивая выгоду от нарушения правила — прирост функции полезности, с потенциальным «проигрышем» система может устойчиво функционировать с любым, каким угодно большим, количеством правил. Да, поведение такой системы точно не назовёшь линейным. Правда при этом вы, как разработчик, никогда не ответите перед, например, судом, а как именно приняла решение ваша система.
Тоже самое мы видим и в жизни. Я даже не говорю о 10 заповедях или 12 смертных грехах или Уголовном кодексе. Все проще! Например, известное всем с детства правило «врать нельзя», нарушается нами постоянно. Потому, что иногда говорить правду просто не уместно исходя из сложившихся социальных или этических норм, а иногда — просто потому, что это нам выгодно.
Но если допустить возможность нарушать правила, то Третий закон читается как заклинание, открывающее путь в бездну. С одной стороны, он допускает наличие у AGI мотива самосохранения, а с другой стороны, то, когда адаптивный AGI создаст нужную программу (паттерн) агрессии, становится только вопросом времени.
Сложно и с приказами — распоряжениями человека, которое нарушить нельзя. Во‑первых, их сложно реализовать (защита кода; распределение доступа; механизм исполнения). Во‑вторых, приказы создают предсказуемые модели поведения системы, которые могут быть использованы злоумышленниками. И в‑третьих, наличие нескольких приказов может привести к противоположным действиям. Кроме того, приказы, идеальные в одной законодательной, культурной или этической системе, могут быть неадекватны или даже вредны в другой.
Разработчикам ИИ часто бывает сложно указать полный спектр желаемого и нежелательного поведения их системы. А способность к самообучению только усложняет этот процесс. Поэтому дизайнеры ИИ часто используют такие приемы, как получение одобрения человека. Но такой подход применим не везде, да и адаптивный ИИ может потенциально научиться создавать лазейки. Более того, лазейки могут создавать люди-злоумышленники.
Увы, остается только один путь — стараться не допускать для AGI‑системы мотивации на ее собственное самосохранение. Нельзя, чтобы ИИ боялся за себя. Нет страха — нет агрессии.
В мире управления рисками существуют четыре основных стратегий: избегать, передать, сократить, принять риск. Попробуем предложить (или спрогнозировать) то, как можно управлять, сформулированными выше, рисками.
Экзистенциальные риски связанные с ИИ, проистекают из желания человека получить преимущества без учета интересов всего человечества. Возможными, но как показывает история — абсолютно бесполезными (вспомните Оппенгеймера и атомное оружие), могут быть такие стратегии:
Избегание риска: международный запрет на создание автономных ИИ-систем с экзистенциальными способностями.
Передача риска: создание глобальных систем ответственности, где риск управления ИИ с экзистенциальными способностями разделяется между несколькими национальными и международными органами.
Трансформационные риски могут купироваться на национальном или отраслевом уровне. Стратегия управления ими может включать следующие подходы:
Избегание риска: страны с высокой долей участия государства в экономике скорее выберут принятие строгих регуляторных мер для контроля внедрения ИИ в критически важные сектора.
Сокращение риска: как минимум — это обучение и повышение квалификации работников для работы в новых условиях; как максимум — национальные программы поддержки переобучения и переквалификации.
Принятие риска: некоторые страны с целью достижения стратегического преимущества пойдут на сознательное принятие трансформационных рисков; они могут пойти путем «смягчения» (дотаций) в определенных секторах.
Риски неправомерного использования ИИ могут быть минимизированы через применении следующих стратегий:
Избегание риска: законодательные ограничения или контроль над использованием ИИ в определённых областях, например, таких как массовые коммуникации и медиа.
Передача риска: использование страхования от кибер-рисков для компенсации потенциальных убытков от кибератак по ИИ.
Сокращение риска: внедрение технических средств защиты ИИ для предотвращения несанкционированного доступа к системам.
Принятие риска: осознанное принятие определённого уровня риска при использовании ИИ в областях, где его применение приносит значительные выгоды, например, в научных исследованиях.
Персональные риски в той или иной области прежде всего несут с собой люди, работающие в ней. Но основная цель использования ИИ — достичь более высокой надёжности (результативности) по сравнению с человеческими операторами. В этом смысле, внедрение ИИ не ухудшает ситуацию, если этот ИИ действительно превосходит человека в данной области. Но все же, для управления персональными рисками видится разумным применить:
Избегание риска: тщательное тестирование и валидация ИИ в критически важных сферах, соответствующее по уровню тестированию человека.
Передача риска: разработка страховых продуктов, которые могут покрывать ущерб, вызванный ошибками ИИ.
Сокращение риска: сохранение человеческого контроля или вмешательства в критические процессы.
Принятие риска: если ИИ показывает лучшие показатели в некоторой области, нежели человек, то такие риски могут быть просто приняты.
Этические и моральные риски. Моя позиция относительно этических и моральных рисков ИИ основывается на понимании того, что любые этические и культурные нормы подвержены изменениям. Они менялись, они меняются, они изменяться. Изменяться и «под» ИИ.
С другой стороны, этические и моральные нормы существенно различаться в разных сообществах — люди даже сами, без ИИ, не могут о них договориться. То, что ценно для одних, может быть неприемлемо для других. Любые попытки угодить каждому вопросу этики и морали при разработке и использовании ИИ неизбежно приведет к конфликтам. Как бы вы не старались!
На мой взгляд, важнее стремиться к объективности и функциональности ИИ, не пытаясь адаптировать его под все существующие моральные и культурные рамки. Поэтому, если говорить дипломатично, то я придерживаетесь позиции нейтралитета. А если все называть своими именами, то мне всё равно! Допускаю, что вы не разделяете мой взгляд, и видите в этой сфере более насущную проблему. В этом случае, думаю, вы сможете самостоятельно сделать выбор стратегии.
Вопрос безопасности ИИ сильно политизирован, и зачастую трудно отделить реальные опасности, исходящие от технологий, от проблем, порожденных человеческими пороками. В конечном счете, проблемы, связанные с ИИ, являются отражением наших собственных человеческих комплексов, проблем и ошибок.
Я уверен, что предложения политиков ограничить или запретить разработку ИИ или требования к разработчикам объяснить, «как именно ваши машины принимает это решение», могут звучать как решение проблемы. Но на самом деле такие меры являются непродуманными и могут тормозить прогресс. Кроме того, плохая новость состоит в том, что подобные изменения часто происходят быстрее, чем общество и регулирующие органы могут к ним адаптироваться, что усиливает и без того высокие потенциальные риски.
Вместо подхода, основанного на страхе — ограничениях и регулировании, необходим иной подход, включающий глубокое понимание технологии и предполагающий сотрудничество всех сторон для создания безопасной и эффективной системы разработки и использования сильного‑ИИ.
Какой именно? Я не знаю.