Забытая цивилизация в долине Инда - Маргарита Альбедиль
Шрифт:
Интервал:
Закладка:
Много вопросов поставила протоиндийская письменность, и много размышлений ещё будет с ней связано. Но это — побочная линия, которая может нас далеко увести от основной. Её же целью было показать, как и какими путями создавались предпосылки и основания для дешифровки со стороны письма. В следующей главе будет показано, как создавались основания для дешифровки со стороны языка.
Глава 4
Язык
В оный день, когда над миром новымБог склонял лицо своё, тогдаСолнце останавливали словом,Словом разрушали города.
Н. ГумилёвДешифровать неизвестную систему письма — значит установить чтение знаков, её составляющих. Это приблизительно то же самое, что выучить буквы алфавита и начать читать то, что этими буквами написано. Попробуйте понять и перевести текст, например, на венгерском языке. Зная латинский алфавит, прочесть вы худо-бедно сможете, а понять и перевести — нет, ибо вы не знаете венгерского языка. Именно этот эффект использовали американцы во время американо-японской войны на Тихом океане: секретные сведения передавались американскими индейцами открытым текстом, но на индейских языках, и принимали тексты индейцы, которые затем переводили их на английский. Японцы легко перехватывали эти тексты, но понять их не могли, ибо не знали индейских языков. В предыдущей главе было объяснено, что методы криптографии и дешифровки исторических систем письма неправомерно ассоциировать. Пример, приведённый здесь, как раз показывает эту разницу. В криптографии язык текста предполагается известным, но неизвестно его преобразование, искусственно произведённое с целью запутать адресата. При дешифровке исторических систем письма неизвестный язык, на котором написан текст, никаким специальным запутывающим адресата изменениям не подвергался.
Теперь читателю ясно, что после определения типа письма («как написано») следующей стратегически важной задачей во всей долгосрочной осаде крепости было распознавание языка протоиндийских текстов («что написано»).
Здесь я прошу читателя мысленно вернуться в предыдущую главу. Там говорилось о том, что все протоиндийские тексты прошли машинную обработку и полученные данные, таким образом, дали возможность сделать заключение о типе протоиндийского письма. Эти же данные послужили исходной базой для заключения о языке текстов.
Вот как эта работа велась. Протоиндийские тексты содержали в общей сложности около 6000 символов, сгруппированных в весьма короткие последовательности, в среднем по 5–6 знаков каждая, — об этом уже говорилось в предыдущей главе, но чтобы не рвать нить рассуждений, здесь придётся повториться. Поскольку общий объём текстов был весьма мал и к тому же представлен не в виде длинного связного текста, а в виде коротких, отрывочных сообщений, а о его языковой принадлежности можно было лишь смутно гадать, то и задача на первом этапе исследования текстов сводилась к тому, чтобы дать ограниченный анализ конструкции текстов и попытаться установить некоторые особенности языковой группы, к которой эти тексты принадлежали. Выполнение задачи началось с составления каталога знаков, «транскрибирования» символов цифрами, выявления разных вариантов написаний знаков — аллографов и т. п. Готовя тексты для работы над ними с помощью вычислительной техники, математики-программисты должны были чётко знать, как и для чего будут использоваться полученные ими результаты. М. А. Пробст, отдавший этому занятию немало сил и времени, вспоминал в этой связи изречение Б. Паскаля, который сравнивал математику с жёрновом на мельнице: в зависимости от того, как поставлен жёрнов, получится или мука, или труха [32, с. 14]. Поэтому предварительно нужно было решить много вопросов, на посторонний взгляд звучащих тривиально, но в действительности весьма коварных, ибо от правильного ответа зависела правильность программы, от неё — правильность результатов, от них — правильность выводов, от них — правильность дешифровки.
Одним из таких «простых» вопросов был такой: что считать знаком текста? Совпадает ли он со знаком системы? Интуитивно мы полагаем знаком текста самую малую его часть. Но и эти «мелкие» части оказываются достаточно велики, чтобы появляться в тексте самостоятельно, без сопутствующего набора других таких же частей. В неизвестном тексте — к тому же небольшого объёма — трудно проверить самостоятельность распределения частей текста. В небольшом тексте некоторые знаки, например, могут встречаться только в паре, тогда именно пару нужно принять за знак текста, хотя каждый из знаков пары может являться знаком системы текстов, т. е. иметь в ней самостоятельное распределение. Значит, знаком протоиндийского текста может считаться наиболее мелкая его часть, имеющая самостоятельное распределение. Такой «простой» ответ на «простой» вопрос потребовал немалого труда.
Возможности решения лингвистических задач, как, впрочем, и других, в случае протоиндийских текстов с самого начала были существенно ограничены их малым объёмом: нечего было и думать о том, чтобы дать полную формальную грамматику языка этих текстов. О смысловой интерпретации и переводе их речи на этом этапе работы не возникало — и не было полной уверенности, что об этом когда-нибудь можно будет заговорить.
Языковой текст — это совокупность единиц, связанных между собой определёнными соотношениями: это — связи внутри слова между фонемами, морфемами, связи между словами в словосочетании, предложении и т. п. Связи действуют в близких друг к другу единицах текста, эти близкие связи надлежало выявить в первую очередь. Для этого прежде всего нужно знать позицию элементов в тексте, а также распределение частот этих элементов по позициям в тексте. Отсюда понятно, почему метод позиционной статистики явился важнейшим инструментом исследования текстов на языке, тогда ещё не известном.
Первое, что нужно было сделать, — разбить текст, записанный сплошь без словоразделов, на отдельные блоки, соответствующие словам или, точнее, словоформам. Слово — единица традиционной грамматической теории и осознаётся таковым всеми, кто обладает даром речи. Термин «слово» может быть использован в лингвистике в разных значениях: фонологическом, грамматическом, семантическом и орфографическом. Говоря о выделении слова в сплошном тексте, мы имеем в виду его орфографическое значение, ибо слово отличается от всякой иной цепочки знаков цельностью и выделимостью.
Алгоритм, разработанный сотрудниками ВИНИТИ, предусматривал возможность параллельно вести исследование морфологических и синтаксических показателей текстов — при малых объёмах текстов эта возможность была существенной. Следующей задачей было выяснение морфологии слова: разбиение каждого блока на отдельные части и выделение постоянных частей, соответствующих корневым и служебным морфемам. На основании относительной частоты блоков и позиции знаков в этих блоках был намечен основной набор переменных и полупеременных знаков, а на основании сочетаемости знаменательных знаков с переменными и полупеременными появилась возможность наметить различные морфологические классы, сочетаемость же переменных и полупеременных знаков друг с другом дала возможность выявить морфологические и синтаксические особенности протоиндийских текстов. Был использован приём, названный «окружением»: для каждого элемента текста (знак или группа знаков) устанавливалось его окружение справа и слева — так выявлялись связи между отдельными элементами текста и способы их сочетаний.
Теперь тексты были «препарированы» в достаточной мере, позволяющей извлечь сведения — пусть скудные, но надёжные — о структуре языка. Как это осуществлялось? Начнём с блоков — словоформ. В состав каждого из них в среднем входит 1–5 знаков. Их оказалось возможным разделить на устойчивые, полупеременные и переменные. Проверили все блоки с тем или иным устойчивым знаком. Выяснилось, что эти устойчивые знаки сохраняются во всех случаях, когда встречается данный блок. Значит, можно предположить, что они передают корневые морфемы. Далее, обратимся к полупеременным (тем, что «образуют» блок) и переменным (тем, что «изменяют» блок). Полупеременные знаки при ближайшем рассмотрении оказалось возможным разделить на две различные группы: первые всегда стоят перед устойчивыми (корневыми), а вторые — после устойчивых, но перед переменными. Что же касается переменных («изменяющих» слово-блок), то они, как выяснилось, всегда стоят после устойчивых и полупеременных второй группы. Для лингвиста их поведение было очень выразительным: они могли заменять друг друга, соединяться попарно или вовсе исчезать. Таких переменных и полупеременных в составе блока могло быть до трёх одновременно и могло не быть ни одного. Теперь со словом-блоком можно было знакомиться ближе: его структура проявлялась, как изображение на фотобумаге под действием реактивов. Постепенно проступали характерные черты протоиндийского языка, свидетельствующие о его грамматическом устройстве.