Сначала был звонок. «Здравствуйте, мне нужно перевести документ с английского на русский. Только он не совсем обычный». Разберемся, подумал я. А вечером увидел на почте это.
Привет, Хабр! Я Дмитрий. Хочу поделиться опытом решения интересной задачи и сравнить с результатами, которые можно получить сегодня с помощью нейросетей. Речь пойдет о транскрибировании аутентичных документов XVII-XVIII века на английском языке.
Надо сказать, что это был примерно 2011 год. Языковых моделей еще не существует, тем более мультимодальных.
Я тогда считал (ошибочно), что письменным английским владею довольно неплохо, поэтому вид документа поверг меня в трепет. Впервые я не понимал не то что смысла текста — даже многие отдельные слова не мог разобрать! Сами попробуйте, вот увеличенный фрагмент:
Первой малодушной мыслью было — отказаться. Но, взяв паузу на подумать, я все же в итоге решил, что задача интересная, и хотя бы попробовать стоит. О чем я и сообщил заказчику, заранее предупредив, что не обещаю стопроцентной расшифровки. Примерно тогда же выяснилось, что документов будет три, а не один.
Скрепя сердце и закатав рукава, я стал разглядывать фотографии более внимательно. Оказалось, что в целом все не так и страшно, как показалось в начале. Я определенно мог различить некоторые слова. Например, на фрагменте выше бросаются в глаха Charles, England, Together, и другие, хоть и написанные вычурным курсивом, но более или менее читаемые. Конечно, о понимании речь пока не шла, но это уже что-то. С готической буквицей в самом начале можно разобраться потом.
С другой стороны, некоторые фрагменты были просто китайской грамотой:
Если бы эта история происходила лет на 10 раньше, было бы тяжко. Но в 2011 году Google Books уже успел появиться, поэтому в цифре можно было найти и учебники, и даже некоторые оцифрованные книги и документы эпохи.
Я стал искать примеры old English script writing и готический алфавит на рубеже 17-го и 18-го веков.
Довольно быстро выяснилось, что у британских крючкотворцев был какой-то собственный алфавит, как у советских врачей, который понимает примерно никто.
Хотя в 1704 году печатные книги уже имели широкое хождение в массах, документы все еще писались вручную, и конечный результат сильно зависел от почерка конкретного человека и от особенностей того, как он выводил ту или иную букву.
Поэтому общий план работы с документом был схож со взломом подстановочного шифра:
Взять общеупотребимые слова: the, and, or и т.д.
Взять другие слова, которые можно однозначно идентифицировать (England).
Выделить в них буквы и их начертание.
Обозначить эти буквы в других словах, попытавшись из общего контекста угадать полное слово.
Смыть, повторить.
Для первичной идентификации букв, которые этим методом вскрыть не удастся (а таких оказалось много), нужно воспользоваться примерами рукописного текста из других источников. Например, я скачал несколько книг с примерами написанных от руки англоязычных документов:
Немного потыкавшись с первым документом (это было трехстороннее соглашение о продаже земли от 1704 года), я решил начать с другого. Мне показалось, там лучше читаются слова, к тому же оно было меньше по объему. Это был договор купли-продажи от 1670 года.
Работал как истинный художник: открывал изображение документа в Paint и прямо там фиксировал свои гипотезы того, что написано в каждой строчке, слово за словом.
Помимо сложностей в разборе почерка были и другие.
Во-первых, документ юридический. А юридический язык во все времена — это специфическая терминология. Все вот эти aforesaid, hereafter, therein, thereby, every part and parcel thereof и т.п. формулировки, характерные для документов Англии XVII–XVIII века, здорово затрудняли понимание сути текста юридически неподкованному мне. Не говоря уже о сокращениях asd -> aforesaid. Плюс архаичные слова, которые были в ходу в те годы, но малоизвестные сегодня.
Юридические термины с расшифровками можно найти в книгах. Обычно это сборники старых документов с транскрипцией, но есть и специализированные учебники. В принципе, чтобы понять основные моменты хватило буквально нескольких примеров.
In the name of God Amen the Two and Twentith daie of August in the year of o[ur] Lord One Thousand Six Hundreth Forty and Three I Elizabeth Beaumont of Sheffeld in the county of york wid[ow] beeing sick in body but of good and p[er]fect memorie (I praise god for the same) doe ordeine and make this my p[re]sent last will and testam[en]t in man[er] and forme folowing First and principally I comend my soule to god my Creator hopeing by his mercies and the merittes of [Chris]t Jesus my Redeemer to have my sinnes p[ar]doned and my soule saved, and my body to the earth And for such worldly substance as the Lord in his mercy bath bestowed on mee my minde and will is shalbee disposed of as foloweth First I will that my debtes mortuary and fun[er]all charges shalbee paid out of my whole goodes Item I give and bequeath unto my sonne John Bate the chist in the nooke end in the house the bedd w[i]th the furniture and a preser att the said beddesyde in the Over parlor, the Lead in the kitchen and the steepefatt in the Malthouse Item I give to Henry Treeton my sonne in lawe Tenn shillinges and to Jonathan Treeton and Elizabeth Treeton his Two children either of them Tenn shillinges Item I give to Mary wife of Thomas Badger Tenn shillinges and to John Bate and Hellen Bate my grandchildren either of them Twenty shillinges It[e]m I give and bequeath to my Two brethren Anthony Howsley and Robert Howsley either of them Twenty shillinges It[e]m I give unto Elizabeth Trippett my goddaughter and to Thomas Trippett her brother either of them Tenn shillinges and to John Greene my godsonne Twelve pence All the Rest of my goodes and chattels not before devised given or disposed of I give devise and bequeath unto my sonne Anthony Bate \iurat/ whom I make and appoint the sole and only Executo \r/ of this my last will and testam[en]t desireing him to see the same truly executed and p[er]formed And I desire my very loving frend Will[ia]m Rawson \iurat/ of walldey to bee sup [er]visor herof and to ayde my Executor w[i]th his best advice and Councell And I give unto him for a token of Remembrance Tenn shillinges In testimony wherof I have herunto sett my hand and seale and declared this to bee my last will, In p[re]sence of Will[ia]m Rawson. \iurat/ John Rawson and W[illia]m Wadsworth. \iurat/ Subscr[ibed] Elizabeth Beaumont
Окей, слово есть, но не в современных словарях. Здесь можно увидеть корень feo, который означает буквально «отдать кому-либо собственность или землю в обмен на услуги». Отсюда феодалы. Которые обязались служить суверену взамен на земельный надел.
Во-вторых, выше я упомянул французский язык. При переводе периодически встречались странные слова и обороты, явно не английского происхождения.
Сказывается взаимное влияние французского и английского языков. Многие английские слова, до сих пор имеющие хождение, появились в результате заимствования из французского. Англия с Францией воевали в ту пору регулярно и с удовольствием, поэтому культурный обмен шел интенсивно. Да хоть тех же «Трех мушкетеров» вспомните.
Вот еще интересный пример архаизма:
Что это за doth? Это устаревшая форма does, т.е. глагол do в третьем лице. Вообще, окончание -th вместо привычного сегодня -s в глаголах третьего лица встречалось часто. Точнее, наоборот: -s вместо -th. Потому что, замена -th (это скандинавская буква thorn, ворвавшаяся на территорию бритов вместе с викингами) на посконно-английскую -s — это типичная вульгаризация.
В конце 17-го века, когда оформлялись эти документы, уже шел процесс упрощения, поэтому встречаются оба варианта.
Давайте теперь посмотрим вот на этот фрагмент.
Здесь перечисляются объекты, которые переходят в право собственности покупателя вместе с приобретаемой им землей. «…gardens garths lands tenements meadows feedings pastures…» — там довольно длинное перечисление, которое начинается со слова Together в предыдущей строчке (его видно выше) и продолжается еще и на следующей, часть которой тоже видна на этом фрагменте.
Запятые видите? Не видите. Потому что их нет.
Запятые в британском английском до 16-века не использовались вовсе, а в 17-ом веке использовались редко. Так называемая serial comma, которая разделяет однородные элементы в перечислении, вообще стала стандартом не раньше конца 19-го века стараниями Горация Херта — редактора уровня нашего Розенталя в Oxford University Press.
Вот примерно таким образом я за месяц или около того транскрибировал и перевел на русский три документа:
Трехстороннее соглашение о продаже земли 1670 года. Третья сторона выступала в роли свидетеля сделки и подтверждала ее правильность и добросовестность обеих сторон.
Договор купли-продажи 1704 года. Здесь третьей стороны не было.
Завещание 1720 года.
Для примера выложу договор купли-продажи 1704 года в хорошем разрешении.
This Indenture made the twentieth day of November in the third yeare of Reign of our Sovereign Lady Anne by the Grace of God of England Scotland France and Ireland Queen Defender of the Faith between John Loeron(??) of Todburne Heels in the country Northumberland gentleman of the one part and John Ridley of Ridling in the country aforesaid yeoman of the other part wittnesseth that the said John Loeron afwell for and in consideration of the sum of five shillings of good and lawful money of England to him paid by the said John Ridley at and before the ensealing and delivery of these presents the receipt whereof he doth hereby acknowledge and thereof Doth arguitt and discharge the said John Ridley his heires Executors and Administrators as alfoe for diverse other good causes and considerated him herewith moveing & Induceing Hath bargained and Sold and by these presents Doth bargaine and Sell unto the Said John Ridley his Executors Administrators and Assigns All that close or parcell of Ground Situat lyeing and being within the Town Townfields precincts and territorys of Ridling in the said country of Northumberland commonly called an known by the name of Greenfeild conteineing by estimacon Seaven acres and aux halfe be the same more or lesse and boundering on the lands of the said John Ridley on the East the Queens High Street on the South and the lands of Mr. Robert Trontbeif (??) on the West and the River of Tine on the North And Alfoe all those two messuages Cottages or thatch houses with a Byer thereto belonging and thereupon adjoining. All whith premises are now in the present possession of the said John Loeron his tenants undertenants or assignes Together with all singular houses edifices buildings barnes byers stables orchards gardens garths lands tenements meadows feedings pastures common and common of pasture heaths furzes Moores Marshes woods underwoods mynes minerals Quarreys ways waters watercourses paths passages safements profits comodityes advantages emoluments hereditaments and appurtenances whatsoever to the said premises belonging or in any wise appertaining or therewith now or at any time heretofore hold used Demiled lett farmed occupied or Enjoyed or accepted or taken as part parcell or member thereof And the Revercon and Revercons Remainder and Remainders thereof and of every part and parcell thereof And all the estate right title interest property Claims and Demand whatsoever either act Law or in Equity of him the said John Loeron and his heires of in and to the said premises or any part thereof And all Deeds evidences and writeings whatsoever concerning the premises which he hath his custody or can come without suite in law to Have and to Hold the said close or parcell of Ground and the said two messuages and Byers and all and singular other the premises above hereby bargained and sold or mentioned or intended soe to be with their and every or their appurtenances and every part and parcell thereof unto the said John Ridley his Executors and Administrators from the day next before the day of the date of these presents unto the full End and terme and for and dureing the whole terme of one yeare from thenceforth next ensuing fully to be Compleate and Ended so the intent and purpose that the said John Ridley may be vertue of these presents and of the Statute made for transferring uses into possession be lawfully possessed of and all and singular the said premises and may be thereby enabled to have sake and receive the Revercon and Inheritance thereof which is intended to be to him and his heires granted and released by the said John Loeron by another indenture intended to be made and beare Date the day next after the the Date of these presents Inwittness whereof the partyes above said to these present Indentures Interchangeably have sett their hands the day and year first above written. Annoq Dom 1704
Этот договор, заключенный двадцатого ноября, в третий год правления милостью Бога полновластной королевы Англии, Шотландии, Франции и Ирландии, Защитницы Веры, Леди Анны между Джоном Лоероном из Тодберн Хилз в округе Нортумберленд, джентльменом, с одной стороны, и Джоном Ридли из Ридлинга в вышеупомянутом округе, йоменом, с другой стороны, которые засвидетельствовали, что указанный Джон Лоерон, принял сумму в пять шиллингов, выраженную в законных Английских деньгах, выплаченную ему указанным Джоном Ридли, до запечатывания и доставки сего документа, подтвержденную распиской, по причине того, что сим он свидетельствует и тем самым передает и выплачивает указанному Джону Ридли, его наследникам, исполнителям и управляющим, равно как и различные другие возможности, и настоящим считает его предложившим сделку по продаже, и сим документом продавшим указанному Джону Ридли, его исполнителям, управляющим и правопреемникам, все, что огорожено или находится в непосредственной близости к земле, в настоящий момент лежащей и находящейся в городе Таунфилдс, окрестностях и территориях Ридлинга в указанном округе Нортумберленд, обыкновенно называемой и известной под именем Гринфилд, содержащую приблизительно семь акров и еще половину будь то больше или меньше и граничащую с землями указанного Джона Ридли на востоке, с Улицей Квинс на юге, и с землями Мистера Роберта Тронтбифа на западе, и с рекой Тин на севере, а также все те два дома с прилегающими участками, коттеджи или дома с соломенной крышей с пристройкой, к тому же принадлежащие и вследствие этого соседствующие со всеми вышеупомянутыми пунктами, в данный момент находящиеся во владении указанного Джона Лоерона, его арендаторов и субарендаторов или правопреемников, включая все до единого дома, сооружения, строения, амбары, служебные постройки, конюшни, фруктовые сады, огороды, парки, земли, арендуемое имущество, луга, пастбища, выгоны, и другие подобные выгоны, пустоши, луга, торфяники, болота, леса, подлески, шахты, минералы, каменоломни, дороги, водоемы, ручьи, тропинки, проходы, сбережения, прибыли, товары, выгоды, заработки, наследства и какие бы от ни было принадлежности к вышеупомянутым пунктам, принадлежащие или тем или иным образом относящиеся, или в настоящие время или в любое время ранее владеемая, используемая, неиспользуемая, заброшенная, обрабатываемая, занятая или обладаемая или принятая или взятая как неотъемлемая часть от этого, а также все наследования и остатки от этого и все неотъемлемые части этого, а также всё положение, право, титул, капиталы, собственность, претензии и какие бы то ни было требования, будь то по закону или по справедливости, указанного Джона Лоерона и его наследников на вышеуказанные пункты или часть их, а также все документы, свидетельства, и какие бы то ни было письма касательно вышеуказанных пунктов, которые находятся под его попечительством или поданы на рассмотрение в суд; Получить во владение и содержать указанный участок земли и указанные два дома с прилегающими участками и пристройками и все до единого перечисленные выше пункты включенные в сделку и проданные или упомянутые или которые будут упомянуты с каждым их дополнением и все неотъемлемые их части, указанному Джону Ридли, его исполнителям и управляющим со дня, непосредственно перед днем даты сего документа до конца и на срок в течение одного полного года с этого времени и в последующем, является полностью законченным и завершенным в соответствии с добрыми намерениями и целями указанного Джона Ридли в отношении сего документа и договора, заключенного для передачи прав пользования во владение, о законном получении всех до единого вышеуказанных пунктов и может таким образом быть использована в праве наследования этого данного ему и его наследникам, и отчуждено от указанного Джона Лоерона другим договором, который будет заключен в дату дня, следующего сразу после даты сего документа, засвидетельствовано то, что вышеуказанные стороны сего договора взаимно поставили подписи в день и год вышеуказанные ранее. A.D.1704 Здесь довольно любопытной выглядит сумма сделки — 5 шиллингов. Здесь довольно любопытной выглядит сумма сделки — 5 шиллингов.
Здесь довольно любопытной выглядит сумма сделки — 5 шиллингов.
Т.е. некий Джон Лоерон продал землю со всеми угодьями, а это по документам примерно 7 с половиной акров (три гектара) с пастбищами, имуществом, лесами и всем остальным — за одну монетку? Шиллинг в 1704 году — это вообще сколько денег?
Один фунт (pound) = 20 шиллингов. Среднестатистический фермер зарабатывал 10 фунтов в год. Получается, 5 шиллингов — это заработок дней за десять. Выглядит так, словно, фермер (йомен) Джон Ридли заключил лучшую сделку в своей жизни! С другой стороны, велика вероятность, что это какие-то овраги, которые Джон Лоерон (джентльмен, на секундочку!), продал крестьянину, т.к. самому было не особо надо. А все эти «лесов, полей и рек» — не более, чем стандартная формулировка.
Любопытно.
А какая сумма и земли фигурируют в документе от 1670 года? Там речь идет о 80-ти фунтах, это уже серьезные деньги.
По документам там аж целое поместье, отсюда и цена:
И где это? В Нортумберленде, как указывает документ. Недалеко от границ с Шотландией, которая вошла в состав Великобритании как раз незадолго до восхождения на престол королевы Анны.
Давайте загуглим, что там есть сегодня.
Увеличиваем...
Вероятно, это оно. Поместье, проданное за 80 фунтов в 1670 году. Сегодня оно стоит 900,000 фунтов, если верить риэлторам.
Вот такая интересная работа. Припоминаю, что заказчика звали Михаил (но это не точно).
Михаил (но это не точно), если вы вдруг это читаете, отзовитесь. Возможно, сможете что-нибудь еще интересное добавить, рассказать о происхождении этих документов.
И поскольку мы на Хабре, то я, конечно, попросил ChatGPT расшифровать один из документов, чтобы посмотреть, что получится. Получилось вполне пристойно. Немного редактуры — и готово. Я трудился месяц, нейросеть думала 9 минут. Прогресс, однако!
ChatGPTЯ вижу, что это фотография старого документа — похоже на юридический или нотариальный акт (например, договор аренды, завещание или имущественный документ) на английском языке, написанный готическим почерком.
Верх документа начинается с типичной формулы:
"This Indenture made the ... day of November ..."
— что означает «Настоящий договор, заключённый ... дня ноября ...». Это стандартная вводная фраза в юридических документах Англии XVII–XVIII века.
Далее идёт перечисление сторон договора (обычно «between [имя первой стороны] of [место], and [имя второй стороны] of [место] ...»).
Вижу много повторяющихся формул вроде:
"aforesaid" (упомянутый выше),
"assigns" (правопреемники),
"heirs" (наследники),
"lands, tenements and hereditaments" (земли, строения и наследуемые владения).
Внизу есть печать и подписи, что подтверждает юридическую силу документа.
Отлично — сделал максимально подробную расшифровку всего видимого текста. Почерк готический, есть блики и местами натёртость чернил, поэтому где я не уверен — пометил в скобках как [illegible] или дал пометку (возможно: …). Ниже — построчная, дословная транскрипция (английский оригинал, по возможности с сохранением старых форм), затем краткое резюме по-русски.
Транскрипция (best-effort, с пометками неполной читабельности):
This Indenture made the Seventeenth day of November in the [illegible (regnal year)] year of the Reigne of our Sovereign [Lady/ Lord] of England, [Scotland?] France and Ireland, Queen Defender of the Faith,
Between [(name illegible)] of [(place illegible)] in the County of Northumberland Gentleman of the one part; and John Rider (or Ridder) of [(place illegible)] of the other part.
Whereas the said [(first party)] for and in consideration of the sum of five shillings of good and lawfull money of England to him in hand paid by the said John Rider at and before the ensealing and delivery of these presents the receipt whereof he doth acknowlege, and for divers other good causes and considerations him thereunto moving, hath bargained, sold, aliened, enfeoffed and confirmed, and by these presents doth bargain, sell, alien, enfeoff and confirm unto the said John Rider his heirs and assigns ALL that messuage, parcel of ground, tenement or other hereditament (or: all that piece or parcel of ground situate, lying and being within the South [illegible] precincts and territories of [illegible] in the said County of Northumberland) called, now commonly called [illegible], together with all houses, edifices, barns, yards, gardens, orchards, profits, commodities, rights, easements, privileges, hereditaments and appurtenances thereunto belonging or in anywise appertaining, and the reversion and reversions, remainder and remainders, rents, issues and profits thereof.
To have and to hold the said messuage, parcel of ground and premises with the appurtenances unto the said John Rider, his heirs and assigns, to the only proper use, benefit and behoof of the said John Rider his heirs and assigns forever.
And the said [(first party)] for himself and his heirs doth covenant, promise and grant to and with the said John Rider his heirs and assigns that he the said [(first party)] now is seised of the said premises of a good sure and indefeasible estate in fee simple, and that he hath good right full power and lawful authority to grant and convey the same; and that the same shall be and remain unto the said John Rider his heirs and assigns, free and clear of all manner of incumbrances (except such as are specially excepted), and the said [(first party)] and his heirs shall and will from time to time warrant and forever defend the said messuage and premises against all persons whomsoever.
In witness whereof the parties above named have hereunto set their hands and seals the day and year first above written.
(Внизу — печать и подписи: видно красную сургучную печать и несколько подпись-подписей, первая, видимо, «John [подпись]».)
Комментарии и пометки по тексту:
Формулы стандартные для английских «indentures» (договоров/актoв) XVII–XVIII вв.: вводная дата/регнальный год, перечисление сторон, «whereas», перечисление платы (five shillings) и формула передачи («bargained, sold, enfeoffed… to have and to hold…»), завершающие гарантии (warrant and defend).
Называемые имена и точные географические названия (особенно левого бока страницы) плохо читаются: декоративная орнаментация, тёмные пятна от бликов и характерный secretary-hand делают отдельные буквы неуверенными. Я пометил такие места как [illegible].
Есть явное упоминание «High Street» (в тексте виднеется «High Street») — значит речь о каком-то участке, выходящем на главную улицу (возможно, в городском приходе).
Внизу — типичная печать и подписи; подпись «John» читается довольно хорошо рядом с печатью.
Надеюсь, было интересно.
Telegram канал у меня есть, но ссылку не буду приводить, поскольку его тематика никак не связана ни с этим постом, ни с моей текущей деятельностью. Но если вдруг захочется почитать интересные разборы разных фактов, например, можно ли медленно сварить лягушку или каков на вкус цианистый калий на самом деле, то можете найти поиском по названию «Откуда мы это знаем». Канал не монетизируется, веду для себя, приходите.
Спасибо за внимание.