Звуки и знаки - Александр Кондратов
Шрифт:
Интервал:
Закладка:
С ассоциациями дело обстоит много сложней. Ибо здесь действуют законы не двузначной, а многозначной логики.
В тезаурусах группируются, например, понятия ранение — несчастные случаи — диагноз — медицина — патология — терапия или чернила — краски — печатание — письмо. Интуитивно нам понятно, что объединение этих слов оправдано. Но попробуйте-ка доказать его путем формальной логики, и вы убедитесь, что это далеко не так просто, как на первый взгляд кажется. А ведь такие связи существуют не только между обычными словами языка, но и научными терминами.
Еще в 1942 году американский исследователь А. Л. Болдуин попытался внести количественные меры в изучение смысловых связей между словами. Он подсчитал совместную встречаемость слов в письмах, написанных одной женщиной, и показал, что частоты их могут быть указателями настроений этой женщины, круга ее интересов и т. п. С тех пор предложено несколько десятков формул, по которым можно вычислять смысловые связи слов.
Применяются для выявления этих связей и электронные вычислительные машины.
Конечно, как замечает один из специалистов по информатике — Р. М. Нидхем, «нельзя ожидать, что в результате нескольких часов работы ЭВМ. будет получено нечто, что могло бы сразу же заменить интуицию и труд ученого (который все равно необходим при выборе единиц анализа и интерпретации результатов). На что мы можем надеяться — так это на то, что выявятся группы слов, ранее не замеченные, но потенциально возможные».
Тезаурусы составляются учеными в «союзе» с машиной.
Сначала группа специалистов подчеркивает термины в данной области знания. Затем тексты вводятся в ЭВМ, которая выдает эти слова в исходной форме, то есть в именительном падеже, единственном числе и т. п. Потом специалисты разбивают на участки смысловое «поле», внутри этих участков производят более мелкое деление, а полученную схему оформляют в виде анкеты.
Анкета заполняется специалистами по каждому термину, а затем она поступает в ЭВМ, которая объединяет все термины, имеющие одинаковые признаки. И, наконец, человек составляет из них тезаурус.
Семантические множители
Нельзя ли использовать тезаурусы в качестве языка-посредника при машинном переводе? Этой мыслью задались английские ученые Кембриджской лингвистической группы.
В 1959 году один из крупнейших авторитетов в области машинного перевода, Бар-Хиллел, заявил, что высококачественный перевод с помощью ЭВМ принципиально невозможен. Ибо в нашем языке есть такая многозначность слов, которую нельзя ликвидировать, не обращаясь к внешнему миру, к внеязыковой, или, как говорят ученые, экстралингвистической ситуации, машине недоступной. Бар-Хиллел привел образец подобного рода принципиально непереводимой фразы… И в том же году сотрудники Кембриджской группы добились правильного машинного перевода этой фразы!
Если все предыдущие работы по машинному переводу стремились игнорировать значение, полагая, что ЭВМ недоступно «понимание» смысла текста, то в работах Кембриджской группы акцент делался именно на перевод значения. Ведь его-то передача и является целью всякого перевода с языка на язык. Сделать же этот перевод по смыслу помог знаменитый тезаурус Роджета.
Перевод с помощью тезауруса происходит не так, как обычный человеческий или стандартный машинный перевод. Это перевод не отдельных слов или фраз. Переводятся целые абзацы. Вначале строится единая «формула смысла» данного абзаца, причем смысл фраз, входящих в него, кодируется номерами тезауруса. Затем для полученной «формулы» смысла находятся соответствующие «формулы смысла» того языка, на который переводится текст.
Работы подобного рода ведутся не только в Англии, но и в Италии, в Миланском центре кибернетики и лингвистики, а также в нашей стране. Несколько различаясь в деталях, методика везде едина: выявление своего рода «атомов смысла», семантических множителей, из которых слагается значение отдельных «молекул», слов языка.
Подобные семантические множители применялись, как вы помните, в информационном языке, созданном учеными из Кливленда (Кливлендский семантический код). Но там задача была проще: из набора элементарных понятий формировались более сложные термины. Речь шла именно о терминологии, а не о языке со всеми его оттенками смыслов и значений слов. Здесь же задача, так сказать, на порядок сложнее.
Кембриджская группа пользовалась тезаурусом Роджета. К глубокому сожалению, такого словаря для русского языка до сих пор никто не составил. Правда, сейчас в нашей стране создается не менее интересный словарь, значение которого для машинного перевода трудно переоценить.
Словарь этот — толково-комбинаторный. В нем приводятся все сочетания русских слов, смыслы которых образуют новый, невыводимый из их сложения смысл. Например, проливной дождь, грибной дождь, косой дождь, слепой дождь и т. д. Если в обычных словарях разъясняется смысл отдельного слова, то в новом словаре толкуются словосочетания.
Работа по созданию такого словаря требует очень много труда. Ведь число различных русских слов равно сотням тысяч. А сколько же различных словосочетаний, имеющих «третий смысл», может быть в нашем языке! Вероятно, их не меньше, а гораздо больше отдельных слов и достигает миллиона. Составление словаря продлится не один год, а то и не один десяток лет (в настоящее время удалось зафиксировать сочетания двухсот слов, так что вся работа еще впереди). Поэтому сейчас исследователи стремятся выявить наиболее общие смысловые множители русского языка. С их помощью они надеются определить своеобразную «геометрию смысла», законам которой подчиняется и наш язык, и, по всей видимости, любые другие языки, так как любое содержание, высказанное на одном языке, может быть передано средствами любого языка (опыт переводчиков убедительно это доказывает: стихи Пушкина понимает и «друг степей калмык», и финн, и эвенк, и граждане США, ФРГ, Мексики и т. д.).
Приведем образец одного из параметров смысла, который удалось выявить в русском языке. Условно он кодируется как Magn, от латинского magnus, то есть высокий, главный, большой, обширный и т. п. Параметр этот определяет слова, имеющие значения высокой степени. Точнее, наш Magn определяет тот или иной оттенок смысла слова, к которому он относится. Возьмем, например, слово друг. Друг может быть близкий, верный, большой, до гробовой доски, сердечный, закадычный, испытанный, старый… Синонимы? Разумеется, нет. Мой старый друг отличается от сердечного друга и от друга до гробовой доски. Но чем, собственно говоря, отличается?
Вот тут-то и начинается наша «геометрия смысла», определение в языке тех координат, которые позволяют нам в нашей жизненной практике считать друга Виталия закадычным, друга Евгения сердечным, а друга Володю испытанным. Как же выявить эти координаты? Очевидно, необходимо обратиться к носителям смысла, носителям языка, то есть к живым людям. И к текстам, которые пишутся на русском языке и понятны этим людям.
Вот какие оттенки удалось выявить в русском языке исследователям из лаборатории машинного перевода при Московском государственном педагогическом институте иностранных языков имени Мориса Тореза. Прежде всего «Magn вообще» делится на три подкласса. Первый — нулевой — подчеркивает значение слова, к которому он относится, вне зависимости от субъекта или объекта. Ограбление может быть дерзким или крупным, любить можно горячо или страстно. Второй подкласс подчеркивает усиление, относящееся к субъекту. Выражение «бежать быстро» нейтрально, оно относится к нулевому подклассу. А вот выражение «бежать изо всех сил» указывает на то, что бегущий изо всех сил старается использовать все свои возможности при беге (и тем не менее, как бы мы с вами ни старались бежать изо всех сил, бегущий Валерий Борзов нас легко опередит, хотя он будет бежать не изо всех сил, а просто быстро!).
Третий подкласс, в отличие от предыдущего, относится не к субъекту, а к объекту. Уничтожение может быть массовым, или тотальным; любовь — всеобъемлющей, капитуляция — полной, авторитет — общепризнанным, горе — народным, а враг — жестоким.
Однако в зависимости от степени или меры внутри каждого подкласса можно выделить несколько категорий или элементарных смыслов. Это — очень, большое количество, активность, длительность, выделение в своем классе. Чтобы каждый человек, владеющий русским языком, смог понять то, что формулируется на языке терминов (но термины тоже опираются на языковую интуицию носителей языка, именно она помогает нам понимать друг друга безо всяких лингвистических теорий), приведем несколько примеров.
«Очень» указывает на высокую степень того или иного признака предмета, но без сравнения его с другими предметами, которые обладают теми же признаками. Здоровье может быть крепким, и дружить можно крепко, а интересоваться— глубоко. Вторая категория — «большое количество» — указывает на увеличение объема. Выбор может быть широким, информация — обширной, ограбление — групповым, вред — огромным. Третья — «активность» — связана с интенсивностью того или иного процесса. Работать с душой можно и не активно, а вот работать не покладая рук — это значит трудиться активно. Выражение «огромная энергия» подчеркивает количество этой энергии, а «кипучая энергия» — ее активность.