Informburo.kz публикует материалы "Русской службы BBC News"
Как искусственный интеллект помогает прочитать утерянные тексты: от обуглившихся папирусов к философским трудам

Фрагмент "развёрнутого" свитка / Vesuvius Challenge
Фрагмент "развёрнутого" свитка / Vesuvius Challenge
Informburo.kz публикует материалы "Русской службы BBC News".

Исследователи смогли виртуально "развернуть" папирусный свиток из библиотеки Геркуланума – древнеримского города, который вместе с Помпеями стал жертвой извержения Везувия в 79 году н. э.

Свиток обуглился настолько, что физически развернуть его и попытаться прочитать невозможно – он просто развалится в руках. Поэтому учёные используют рентген и искусственный интеллект, чтобы воссоздать содержание папируса.

"Мы уверены, что сможем прочитать более-менее весь свиток целиком. Мы впервые можем заявить об этом с уверенностью", – сказал Стивен Парсонс, управляющий проектом Vesuvius Challenge.

Обуглившиеся папирусные свитки из Геркуланума в библиотеке Неаполя / Фото Getty Images

Огромная библиотека – более 1800 свитков – на вилле в Геркулануме, которая с тех пор получила название Вилла папирусов, была обнаружена археологами ещё в XVIII веке. Считается, что это единственная античная библиотека, сохранившаяся в полном объёме.

Геркуланумские папирусы хранятся в Бодлианской библиотеке в Оксфорде, Институте Франции и музее Getty в Лос-Анджелесе. В течение многих десятилетий к ним никто не прикасался: исследователи опасаются навредить хрупким артефактам.

"Раньше мы не верили, что технологии могут быть достаточно безопасными или достаточно эффективными, чтобы извлечь хоть какую-то информацию из свитков", – объясняет глава отдела сохранности книг Бодлианской библиотеки Николь Гилрой.

План Виллы папирусов в Геркулануме, рисунок XVIII века / Фото Getty Images

Но ради этого проекта команда достала один свиток из запасников. Его поместили в специально изготовленный для этой цели корпус и привезли в Diamond Light Source – синхротрон в Оксфордшире.

Синхротрон ускоряет электроны почти до скорости света и производит изучение сильнее обычного рентгена. При помощи излучения можно получить изображения свитка, не повредив хрупкий папирус.

"Это позволяет увидеть объекты в масштабе нескольких тысячных миллиметра", – объясняет директор по физическим наукам в Diamond Адриан Манкузо.

Получив изображения при помощи синхротрона, учёные создают 3D-реконструкцию. Затем им предстоит идентифицировать слои внутри свитка (а это около 10 метров папируса).

"Мы должны определить, где заканчивается один слой и начинается другой, чтобы затем "развернуть" цифровое изображение свитка", – поясняет Манкузо.

Затем искусственный интеллект помогает учёным найти чернила на развёрнутом свитке. Это не так-то просто: и папирус, и чернила состоят из углерода и их почти невозможно отличить друг от друга.

"Уже понятно, что свиток полностью исписан, – говорит Стивен Парсонс. – Теперь мы можем работать над тем, чтобы чётче проявить текст".

Геркуланум, как и Помпеи, был похоронен под слоем вулканического пепла /Фото Getty Images

Предыдущий прорыв в работе над папирусами из Геркуланума произошёл в начале 2024 года, когда группе учёных под руководством Грациано Раноккья из Пизанского университета удалось прочитать около 1000 слов на одном из свитков. Это открытие позволило уточнить детали смерти древнегреческого философа Платона, в том числе выдвинуть новую теорию о месте его захоронения.

Бодлианский свиток, вероятно, тоже содержит философский текст, но команде потребуется больше изобретательности как со стороны людей, так и со стороны компьютеров, чтобы это можно было сказать с большой уверенностью.

Междисциплинарное сотрудничество

Междисциплинарное сотрудничество с давних пор помогает расшифровывать неизведанные письменности и читать тексты, которые раньше казались утерянными. Одно из самых главных открытий в классической филологии и античной истории в XX веке – расшифровка линейного письма Б – оказалось возможным благодаря архитектору Майклу Вентрису. Работу Вентриса дополнил и закончил лингвист Джон Чедвик.

Обуглившиеся свитки требуют очень бережного отношения / Фото Bodleian library

Цифровое "развёртывание" свитков из Геркуланума началось в 2000-х благодаря Бренту Силсу – профессору университета Кентукки, специалисту по машинному обучению, ИИ и компьютерному зрению.

В 2005 году, когда многие институты начали оцифровывать тексты из своих коллекций, Силс задумался о том, нельзя ли виртуально "развернуть" свитки из Геркуланума.

Спустя четыре года у него был готов прототип, и учёный смог убедить Институт Франции предоставить ему свиток из их коллекции (при условии, что свиток не покинет институт). Однако доступных тогда вычислительных мощностей оказалось недостаточно, чтобы работать с изображениями свитка.

К 2015 году наконец-то технологии продвинулись достаточно для того, чтобы группа исследователей под руководством Силса смогла расшифровать манускрипт из израильской синагоги Эйн-Геди.

Но применить ту же самую технологию для свитков из Геркуланума оказалось намного сложнее. Материал манускрипта Эйн-Геди – пергамент, который реагирует на рентгеновское излучение иначе, чем чернила. Этого достаточно, чтобы получить текст. Но чернила на папирусе различить при помощи снимков почти невозможно.

Тогда Силс решил обратиться к искусственному интеллекту, чтобы восстановить написанное на папирусах из Геркуланума.

Так появился проект Vesuvius Challenge. В 2022 году бывший исполнительный директор айти-компании GitHub Нат Фридман предложил Силсу организовать конкурс по расшифровке свитков, открытый для всех желающих. Фридман и его соратник по инвестициям в ИИ Дэниэль Гросс вложили 125 тысяч долларов, ещё миллион был собран среди других инвесторов в Кремниевой долине и пользователей соцсетей, и в марте 2023 года проект был запущен.

Силс поделился своими разработками и сканами папирусов в высоком разрешении с участниками конкурса. Они в свою очередь должны были разработать модели машинного обучения, которые позволили бы отличить текст от обугленного пепла.

С тех пор организаторы несколько раз награждали участников. В каждом раунде заявляются конкретная цель и размер награждения для победителей.

Участники и победители зачастую совсем не знают древнегреческого языка, на котором, скорее всего, написаны тексты. Результаты их работы передают папирологам, которые в свою очередь оценивают получившийся текст.

Весной 2024 года международная команда из трёх студентов смогла выявить около 2000 греческих букв и получила за это 700 тысяч долларов.

«Запрещено копировать, распространять или иным образом использовать материалы Русской службы Би-би-си»

Informburo.kz публикует материалы "Русской службы BBC News"
Новости партнеров