В 1980 году в журнале «The Behavioral and Brain Sciences» была опубликована статья философа Джона Сёрла[i] (John Searle) «Minds, Brains, and Programs», содержащая описание мысленного эксперимента «Китайская комната»[ii], критику этого эксперимента различными исследователями, а также ответы Сёрла на эту критику.
Аргумент «Китайской комнаты» оказался одним из самых обсуждаемых в когнитивистике.
Эта статья показывает очевидную ошибочность этого аргумента.
Возражение настолько простое, что мне сложно поверить, что оно не появилось раньше. Гораздо вероятнее, что этот велосипед до меня был изобретён уже много раз. Если это в самом деле так, я буду искренне признателен тем, кто найдёт и покажет мне это опровержение.
Сёрл пытается доказать, что даже проходящий тест Тьюринга[iii] компьютер на самом деле не способен понимать тексты, он способен только качественно притворяться, что понимает их.
Для этого Сёрл предлагает мысленный эксперимент с запуском программы, проходящей тест Тьюринга, не на компьютере, а с человеком в качестве исполнителя.
Предположим, что у нас есть компьютер, работающий под управлением программы, способной пройти тест Тьюринга на китайском языке. Переведём эту программу на английский язык.
Поместим в комнату человека, знающего английский, но не знающего китайский. Снабдим его книгой инструкций, написанной на английском и поэтому понятной ему; канцелярскими принадлежностями (карандашами, бумагой, ластиками); бумажной системой хранения. Под дверь комнаты просовываются тексты на китайском, написанные иероглифами. Человек читает книгу инструкций, пошагово выполняет инструкции, в результате он пишет на бумаге какие-то другие китайские иероглифы и отправляет их назад под дверь.
С точки зрения стороннего наблюдателя комната общается на китайском, понимая его. Если программа, работающая на компьютере, проходит тест Тьюринга, то его пройдёт и человек-исполнитель, выполняющий ту же самую программу без компьютера.
Сёрл заявляет, что никакой существенной разницы между ролью компьютера и исполнителя нет. И компьютер, и исполнитель следуют программе, которая и создаёт поведение, выглядящее пониманием.
Но исполнитель на самом деле не понимает китайского и не имеет ни малейшего понятия о содержании разговора. Значит, и компьютер, выполняющий ту же роль, тоже не понимает китайского и тоже не имеет ни малейшего понятия о содержании разговора.
Итак, способность компьютера пройти тест Тьюринга совершенно не означает способность понимать язык. По Сёрлу, для понимания необходим мозг, и без него понимание возникнуть не может.
Давайте поймём, что рассуждение Сёрла ошибочно. Для этого применим процедуру Сёрла не к гипотетической программе, способной пройти тест Тьюринга на китайском языке, а к реальной шахматной программе, например, Stockfish[iv].
В качестве исполнителя для нашего мысленного эксперимента выберем человека, не просто совершенно не умеющего играть в шахматы, но даже не знающего о существовании такой игры вообще.
Переведём Stockfish в формат инструкций на знакомом человеку языке, не раскрывая смысл инструкций. Переведём на бумагу шахматные базы данных, но опять-таки не понятными для человека диаграммами, а в алгоритмическом формате.
Запустим Stockfish на субстрате человеческого мозга.
Человек в комнате получает последовательность символов. Она на самом деле обозначает шахматный ход или предложение («давайте сыграем, у вас белые», «предлагаю ничью»), но человек не знает смысла этой последовательности. Он проводит вычисления по алгоритму и выдаёт ответную последовательность символов, обозначающую ответный ход или реакцию на предложение.
Совершенно очевидно, что с точки зрения стороннего наблюдателя комната умеет играть в шахматы с силой Stockfish. Однако наш исполнитель по-прежнему не умеет играть в шахматы и даже не знает, что такая игра существует. А поскольку, следуя Сёрлу, мы считаем, что исполнитель ничем принципиально не отличается от компьютера, мы, следуя Сёрлу, должны сделать вывод, что и компьютер не умеет играть в шахматы.
Вот только он это умеет.
Итак, последовательное применение рассуждений Сёрла приводит нас к абсурдному выводу. Значит, эти рассуждения ошибочны. Значит, отсутствие некоторого качества у исполнителя программы нельзя переносить на всю компьютерную систему.
Разумеется, поняли. Прямо в исходной статье первым же контраргументом приведено совершенно верное опровержение.
The systems reply (Berkeley). While it is true that the individual person who is locked in the room does not understand the story, the fact is that he is merely part of a whole system, and the system does understand the story. The person has a large ledger in front of him in which are written the rules, he has a lot of scratch paper and pencils for doing calculations, he has 'data banks' of sets of Chinese symbols. Now, understanding is not being ascribed to the mere individual; rather it is being ascribed to this whole system of which he is a part.
Системный контраргумент (Беркли). Участник эксперимента, находящийся в комнате, в самом деле не понимает по-китайски, но он представляет собой не аналог компьютера, а часть системы. Китайский понимает только вся система в целом. У человека есть книга инструкций, у него есть карандаши и бумага для вычислений, у него есть «базы данных» в виде наборов китайских символов. Понимание достигается не на уровне человека-исполнителя, а на уровне всей системы, частью которой он является.
Да, это именно так. Снова посмотрим на шахматную программу. Очевидно, что компьютер сам по себе в самом деле не умеет играть в шахматы. Он «учится» этому, когда запускается шахматная программа. В процессе игры компьютер обращается к банкам данных, а также производит множество вычислений, сохраняя их результаты в памяти. Система из компьютера, шахматной программы, банков данных и оперативной памяти умеет играть в шахматы.
Сёрл, разумеется, ответил на этот контраргумент. Мы, проверив на шахматах, уже знаем, что ответ Сёрла ошибочен, и поэтому не будем разбирать его тщательно, удовлетворившись только тем, что покажем ошибку.
My response to the systems theory is quite simple: let the individual internalize all of these elements of the system. He memorizes the rules in the ledger and the data banks of Chinese symbols, and he does all the calculations in his head. The individual then incorporates the entire system. There isn't anything at all to the system that he does not encompass. We can even get rid of the room and suppose he works outdoors. All the same, he understands nothing of the Chinese…
Ответ на системный контраргумент: давайте все элементы системы инкапсулируем внутри человека. Он выучил наизусть книгу инструкций и все базы данных, а все вычисления он производит в уме. Теперь человек объединяет в себе всю систему, снаружи ничего не осталось. Можно и от комнаты избавиться, пусть он работает на открытом воздухе. И он всё ещё совершенно не понимает по-китайски…
Ну что же, давайте проделаем ту же операцию с шахматной программой. Здесь возникает серьёзная техническая проблема: человек принципиально не в состоянии ни заучивать требуемые объёмы инструкций, ни умещать в кратковременной памяти нужные для выполнения промежуточных операций объёмы информации, ни выполнять эти операции с удовлетворительной скоростью. Но мы всё-таки имеем дело с мысленным экспериментом и поэтому вполне можем представить, что «спим с открытыми глазами и поём».
Пусть наш герой выучит наизусть всю инструкцию Stockfish и все базы данных, а все вычисления проводит в уме. Теперь он способен запустить всю процедуру…
…и становится очевидно, что теперь он умеет играть в шахматы с силой Stockfish. Он по-прежнему не знает ни названий фигур, ни правил взятия на проходе или рокировки, ни принципов развития – но с ним можно сыграть, а это значит, что он умеет играть. Просто играет он совершенно нечеловеческим способом, абсолютно не так, как делают это люди.
С исходным человеком из мысленного эксперимента Сёрла совершенно та же история. Ему в голову инсталлируют систему, которая понимает китайский, но делает это совершенно не по-человечески, принципиально иным способом. Собственный «языковой модуль» носителя системы, то есть часть его мозга, отвечающая за процессы восприятия/формирования речи, не имеет доступа к смыслу китайского текста, этот смысл доступен только для обработки выученным алгоритмом. Если человек забудет алгоритм, его способность понимать китайский пропадёт. Если он потеряет возможность запоминать промежуточные результаты, она также исчезнет.
Поэтому возражение Сёрла неверно. Сёрл не распознаёт нечеловеческое, алгоритмическое понимание и ошибочно считает, что после такой операции человек по-прежнему не понимает китайский. Человеческим способом – не понимает, но теперь в его мозгу располагается система, понимающая китайский.
Полезно вообще разобраться, что именно мы имеем в виду, говоря, что понимаем что-то, и как именно осуществляется это понимание. Как писал Михаил Леонович Гаспаров, понять стихотворение — значит, быть в состоянии пересказать его своими словами[v]. Это очень хороший критерий, допускающий расширение и за пределы стихосложения.
Понимание достигается, когда человек строит в своём сознании модель ситуации, с которой дальше может работать: может смотреть на неё с разных сторон, оценивать, анализировать и так далее. В частности, может самостоятельно описать эту модель текстом, то есть «пересказать своими словами».
Что именно означает «в своём сознании»? Сознание человека — это совокупность процессов в лобных долях его мозга, и построение модели происходит на том же самом субстрате. Когда мы понимаем что-то, в нашем мозгу активизируются определённые нейронные цепи. Что будет, а что не будет включено в эти цепи, определяется нашим жизненным опытом, записанным в нашей памяти, которая тоже локализована в мозгу. Необходимые воспоминания для правильного соединения нейронов в этих цепях подтягиваются в кратковременную память из долговременной, и возникает динамическая структура мозговых процессов и содержимого кратковременной памяти.
Именно с этой динамической структурой мозг и работает, именно она названа выше моделью ситуации в сознании.
Модель не обеспечивает понимание, она является пониманием. Степень адекватности этой модели определяет уровень понимания. Можно не понять ничего (модель не получилось построить вообще), можно понять некоторую часть сообщения от «почти ничего» до «почти всё», а можно что-то понять неправильно, то есть построить модель, соответствующую другой ситуации.
Компьютер понимать естественный язык может только аналогичным способом: тоже через построение модели и работу с ней, но его модель устроена иначе. Компьютерная модель — динамическая структура, состоящая из данных в памяти и процессов программы, обрабатывающей эти данные. Инженеры компании ABBYY пытались формализовать и явно описать построение такой модели и даже до некоторой степени преуспели, но в полной мере задача оказалась им не по зубам[vi]. Существующие статистические системы NLP строят эту модель в нечитаемом для человека виде, например, в виде матрицы коэффициентов весов нейронной сети. Однако и в этом случае модель является пониманием, и степень адекватности модели определяет уровень понимания.
Ключевая часть Китайской комнаты — вовсе не книга с инструкциями и не человек, который этим инструкциям следует. Модель-понимание языковой ситуации возникает не в книге инструкций, не в банках данных и даже большей частью не в мозгу исполнителя, а в записях, которые исполнитель ведёт в процессе следования инструкциям. Она существует на субстрате канцелярских принадлежностей, которые исполнитель использует, чтобы вручную выполнять алгоритм из книги.
Перенос этой модели в голову человека запутывает, потому что человеческая модель-понимание строится совершенно иначе. И разумеется, инсталляция в мозг компьютерной модели-понимания не приводит к появлению там человеческой модели. Как совершенно верно отметил Марвин Мински, на субстрате человеческого мозга рядом с обычным человеческим сознанием, не знающим китайского, возникает виртуальное сознание, знающее китайский[vii].
Убеждающая сила аргумента Китайской комнаты целиком зиждется на убедительности ошибочной процедуры Сёрла. Эта ошибочность оказывается замаскирована тем, что люди, во-первых, в основной своей массе не очень представляют, что такое «понимание»; во-вторых, им очень трудно представить себе программу, способную пройти тест Тьюринга на китайском, и ещё труднее подробно представить работоспособную Китайскую комнату; в-третьих же – напротив, представить себе человека, не знающего китайский очень легко, у большинства из нас такой человек прямо под руками. Именно этот контраст и приводит к тому, что человек особенно ярко воспринимает именно ключевое для довода Сёрла неумение говорить по-китайски.
Однако ошибочность процедуры становится очевидной, если применить эту процедуру к существующей программе. Сам Сёрл, разумеется, этого не сделал. Если бы он это сделал, знаменитая статья не появилась бы, и человечество не тратило бы громадные ресурсы на обсуждение этого заблуждения.
Разумеется, эта работа не доказывает, что взгляды Сёрла на сильный искусственный интеллект ошибочны; она доказывает лишь то, что эти взгляды не обоснованы. Из того, что компьютер без программы не способен понимать естественный язык, совершенно не следует, что на это не способен и компьютер, работающий под управлением какой бы то ни было программы.
[i] https://en.wikipedia.org/wiki/John_Searle
[ii] https://en.wikipedia.org/wiki/Chinese_room
[iii] https://en.wikipedia.org/wiki/Turing_test
[iv] https://stockfishchess.org/
[v] https://rus.1sept.ru/article.php?ID=200204301
[vi] https://sysblok.ru/blog/gorkij-urok-abbyy-kak-lingvisty-proigrali-poslednjuju-bitvu-za-nlp/
[vii] https://en.wikipedia.org/wiki/Chinese_room#Virtual_mind_reply