Методы статистического анализа исторических текстов (часть 2) - Анатолий Фоменко
Шрифт:
Интервал:
Закладка:
Через семь лет из печати выходит труд Ломоносова по русской истории. И то лишь первый том. Скорее всего, это издание было осуществлено под контролем Миллера, что вызывает подозрение в подделке. На эту мысль наводит несколько обстоятельств. Во-первых, "Российская история" Ломоносова удивительным образом согласуется с миллеровской точкой зрения на историю. Даже непонятно - как мог Ломоносов обвинять Миллера в фальсификации русской истории (см. [к4], с.62), когда сам, в своей опубликованной "Истории" соглашается с Миллером по всем пунктам? Во-вторых, подозрение вызывает исченовение второго и последующих томов "Истории" Ломоносова. Вряд ли разногласия Ломоносова и Миллера начали сказываться только начиная со второго тома (и поэтому Миллер опубликовал первый том). Скорее можно предположить, что Миллер подделал первый том "Истории" Ломоносова, а остальные тома уничтожил. Хотя бы для того, чтобы уменьшить объем своей работы по фальсификации.
Итак, возникает проблема. Верно ли, что под именем Ломоносова было напечатано совсем не то, что Ломоносов на самом деле написал? Если да, то кто автор подделки?
К решению этой задачи можно подойти с помощью разработанного в [к3] метода идентификации авторства, основанного на найденном В.П.Фоменко и Т.Г.Фоменко [к3] авторском инварианте. Этот инвариант (частота употребления всех служебных слов) позволяет обнаруживать плагиат и выявлять писателей с близким авторским стилем.
Поясним вкратце - о чем идет речь. При возникновении и исследовании различных проблем авторства полезным инструментом могут оказаться "авторские инварианты" литературных текстов. Под авторским инвариантом понимается такой числовой параметр текстов, который однозначно характеризует своей величиной тексты одного автора (или небольшой группы авторов) и принимающий существенно разные значения для текстов, разных групп авторов. Желательно, чтобы количество этих "разных групп" было велико и чтобы в каждой группе объединялось мало "близких" авторов (по сравнению с общим количеством исследуемых авторов).
Эксперименты показывают, что обнаружение числовых характеристик, позволяющих различать тексты разных авторов, весьма сложная задача, поскольку при написании текста существенную роль играют не только подсознательные факторы, но и осознаваемые. Например, частота употребления автором редких и иностранных слов может служить в некотором смысле показателем его эрудиции, но этот показатель достаточно легко контролируется автором на сознательном уровне, что не позволяет, использовать эту числовую характеристику в качестве авторского инварианта.
Трудности также связаны с тем, что многие числовые характеристики текстов чрезвычайно чувствительны в смене стиля в произведениях одного и того же автора, то есть принимают существенно различные значения для текстов, написанных автором в разное время. Таким образом, установление отличительных особенностей каждого автора весьма сложно, особенно если оценивать эти индивидуальные параметры количественно.
Искомая характеристика должна удовлетворять условиям:
1) Она должна быть достаточно "массовой", чтобы слабо контролироваться автором. То есть, эта характеристика должна быть в некотором смысле "бессознательным параметром", авторов.
2) Она должна быть "постоянной" для данного автора, то есть иметь небольшое отклонение от среднего значения, то есть слабо колебаться, вдоль всех его произведений.
3) Она должна различать между собой разные группы авторов, то есть должны существовать разные группы авторов, для которых отличия в значениях этой характеристики были бы больше, чем ее колебания внутри текстов одного автора.
После проведения обширного численного эксперимента оказалось, что числовым параметром текстов, который удовлетворяет перечисленным условиям, является относительная частота употребления автором совокупности служебных слов - предлогов, союзов и частиц. См. рис.1 и рис.2 в работе [к3], и рис.Доп-3.7. При величине выборки в 16000 слов процент служебных слов для каждого автора оказался приблизительно постоянным для всех его произведений. То есть, график изображается практически горизонтальной прямой. Оказалось, что разность между максимальным и минимальным значениями этого параметра (минимум и максимум взяты по всем исследованным авторам) значительно больше амплитуды его колебаний внутри произведений отдельных авторов. Это и означает что, он хорошо различает между собой многих авторов. На этом основании он был назван авторским инвариантом. Он может служить как для атрибуции неизвестных произведений, так и для обнаружения плагиата, хотя и с определенной осторожностью: наблюдается иногда авторы с очень близкими инвариантами. Например, Фонвизин и Толстой. Кроме того, для достаточно уверенных выводов требуются тексты большого объема.
Последнее условие в данном случае к счастью выполнено: как и у Миллера, так и у Ломоносова есть работы, содержащие более 16000 слов каждая. Таким образом, условия применимости методики выполнены.
Работа по применению методики авторского инварианта в рассматриваемом случае состоит в следующем.
1. Были рассматрены все доступные произведения Миллера и из них были выбраны те, которые содержат русский прозаический текст достаточного объема.
2. Затем был вычислен авторский инвариант Миллера, то есть процент употребления им служебных слов. При этом использовалась методика, изложенная в работе [к3].
3. То же самое было проделано с текстами Ломоносова.
4. Наконец, полученные значения инварианта были сравнены друг с другом.
Нам были доступны и были использованы следующие тексты Миллера [к1]:
1. "О первом летописателе Российском преподобном Несторе, о его летописи и о продолжателях оныя".
2. "Предложение, как исправить погрешности, находящиеся в иностранных писателях, писавших о Российском государстве".
3. "Описание морских путешествий по Ледовитому и по Восточному морю, с Российской стороны учиненных".
4. "Известия о новейших кораблеплаваниях по Ледовитому и Камчатскому морю с 1742 года, то есть по окончании второй Камчатской экспедиции. Часть из истории государствования великия императрицы Екатерины Вторыя".
5. "Известие о дворянех [Российских]".
6. "[Описание городов Московской провинции]".
7. "История жизни и царствования Федора Алексеевича".
8. "[Проект создания исторического департамента Академии наук]".
9. "Важности и трудности при сочинении Российской истории".
10. "Инструкция переводчику Андреяну Дубровскому".
11. "Из переписки".
Из перечисленных работ Миллера только работы 3 - 7 имеют достаточный, более 6000 слов, объем. Кроме того, необходимо отделить те работы, которые были написаны в оригинале не по-русски, и возможно переведены на русский язык не Миллером, а кем-то другим. Из работ 3-7 это относится к работе 6: описание Коломны Миллер сделал на немецком. Кроме того в работе 6 есть много табличного материала, затрудняющего вычисления. Работы 3 и 4 содержат много числового материала, который также усложняет подсчеты. В тексте 7 много табличного и числового материала; кроме того он набран в разных форматах, что затрудняет его обработку по чисто техническим причинам.
Поэтому на первом этапе исследований был взят только текст 5. Его объем больше 16000 слов. При этом часть текста, расположенная между неудобными для посчетов таблицами (страницы 197 - 206) была исключена из рассмотрения. Обработке подверглись: начало (страницы 180 - 197) и конец (страницы 206 -225) данной работы. Страницы даны по изданию [к1].
Результат вычислений таков. Авторский инвариант Миллера оказался равным 28 процентам!
ЭТО - ИСКЛЮЧИТЕЛЬНО БОЛЬШОЕ ЗНАЧЕНИЕ ИНВАРИАНТА. Оно является наибольшим по сравнению со всеми другими авторами, проанализированными В.П.Фоменко и Т.Г.Фоменко в работе [к3].
Перейдем к подсчету авторского инварианта для М.В.Ломоносова. Были обработаны следующие его тексты.
1. "Описание стрелецких бунтов и правления царевны Софьи".
2. "Краткая история о поведении Академической канцелярии в рассуждении ученых людей и дел с начала сего корпуса до нынешнего времени".
3. "Древняя Российская история от начала российского народа до кончины великого князя Ярослава Первого, или до 1054 года, сочиненная Михайлом Ломоносовым, статским советником, профессором химии и членом Санктпетербургской императорской и королевской Шведской Академий наук".
Остальные 44 текста из книги [к2] не обрабатывались нами, как по уже перечисленным (в случае Миллера) причинам, так и потому, что примерно треть из них написаны в стихотворной, а не в прозаической форме, как того требуют условия вычислительного эксперимента. Причина выбраковки многих текстов состояла также в том, что до настоящего времени не сохранились их оригиналы, как и в случае с интересующей нас "Древней Российской историей". Поэтому принадлежность их М.В.Ломоносову может оказаться не бесспорной. В результате для счета осталась работа 2.