Информационные технологии и лингвистика XXI века - Алла Викторовна Гуслякова
Шрифт:
Интервал:
Закладка:
Работы по кибернетике и, в частности, по структурной лингвистике, развернутые в конце 50-х годов под руководством академика Акселя Берга и члена-корреспондента АН СССР Алексея Ляпунова, вывели отечественную науку на передовые позиции. Уже в начале 1956 года в Институте прикладной математики (ИПМ) им. М. В. Келдыша заработала первая отечественная система машинного перевода с французского на русский язык. Система ФР-I давала перевод более высокого качества, чем у американских оппонентов. Математики рассматривали алгоритмы машинного перевода как частные случаи изучаемых в кибернетике алгоритмов перекодирования.
В то же самое время в 1957 году молодой американский исследователь Ноам Хомский публикует свой научный труд «Синтаксические структуры», положения которого до сих пор в компьютерной лингвистике, в частности в автоматической обработке текста, являются доминирующими. Работы Н. Хомского послужили началом рационалистического направления в компьютерной лингвистике. Исходная точка рационализма – компьютерные модели, независимые от языка. Модели лучше всего принимаются, когда они настолько просты, насколько это возможно. Здесь можно провести параллель с идеей Ф. Соссюра отделить язык от реального мира.
Ранние исследователи машинного перевода поняли, что машина не может перевести введенный текст без дополнительной помощи. Учитывая нехватку лингвистических теорий, особенно до 1957 года, выдвигается предложение предварительно редактировать тексты таким образом, чтобы отмечать в них трудности, например, чтобы разрешить омонимию. А поскольку системы машинного перевода не могли производить правильный результат, текст на целевом языке должен был быть отредактирован, чтобы стать понятным. Мысль о предварительном и последующем редактировании текста породила идею о том, что компьютер может быть использован для оказания помощи человеку в областях, с которыми компьютер не в состоянии пока справляться своими силами. В области машинного перевода компьютер может действовать как память-хранилище, освобождая человека от необходимости знать огромное количество слов. Израильский логик, лингвист и математик Иегошуа Бар-Хиллел (Bar Hillel) рассмотрел область исследований и пришел к выводу, что полностью автоматический высококачественный перевод (FAHQT – Full-Automatic High-Quality Translation) не возможен без знаний. Он также пришел к выводу, что многочисленные проекты, в которых перевод сводился главным образом к замене слов одного языка на слова другого, были изначально обречены на провал даже с учетом многочисленных заплаток и расширений. Причина проста: переводчик-человек добавляет свое понимание документа, который нужно перевести, к своим знаниям о структурах языка, с которым он работает. Там остаются некоторые конструкции, которые требуют понимания документа или пути, по которому передаются представления о мире и определенной предметной области. Во многих языках трудно понять, что имеет в виду говорящий предложения, соответствующего типу:
«Она надела красные туфли и чулки».
Сразу же возникает вопрос о цвете чулок. Были ли они тоже красными? Во многих случаях это не имеет значения, но если система, например, анализирует свидетельские показания, значение таких деталей может существенно возрастать.
Комментарии И. Бар-Хиллеля оказали долговременное влияние на восприятие практичности систем автоматической обработки текстов и машинного перевода, в частности. Постепенно финансирование проектов в области компьютерной лингвистики в США были приостановлены.
В то же самое время в СССР компьютерная лингвистика стремительно развивалась, особенно в 1960-е годы. Однако в следующем десятилетии работы в области машинного перевода оказались под жестким государственным контролем. В отличие от атомного проекта (время уже было другое), этот контроль не сконцентрировал силы отечественных ученых, а наоборот, способствовал прекращению или замедлению многих работ. Исследования по машинному переводу в ИПМ им. М. В. Келдыша тоже практически прекратились.
В США период с 1966 по 1980 годы характеризуется разработками систем SHRDLU, LUNAR и LIFER/LADDER.
Система SHRDLU[16] Терри Винограда (Terry Winograd) имитировала поведение робота, манипулировавшего блоками на поверхности стола. Она могла управляться инструкциями, такими как «Pick up the red pyramid”(«Возьми красную пирамиду») и отвечать на вопросы типа «What does the blue box contain?»(«Что содержит голубой блок?»). Появление SHRDLU имело большое значение, так как оно показало, что синтаксис, семантика и порождение выводов о мире могут быть скомбинированы так, чтобы создать систему, которая понимает естественный язык. Это была очень ограниченная система: она могла управляться только очень небольшим числом предложений. Более того, она могла понимать язык, касающийся только настоящего момента и очень небольшой части реального мира: мира блоков. Эффект, который она производила, мог быть достигнут только в весьма ограниченной области и попытка расширить систему неизбежно привела бы к снижению эффективности.
Система LUNAR был естественно-языковым интерфейсом к базе данных, использовавшим и расширенную сеть переходов[17] и процедурную семантику американского исследователя У.А. Вудса[18]. Система унаследовало свое имя от базы данных, содержавшей информацию (ATN – Augmented Transition Network) об образцах лунных скальных пород. Система была продемонстрирована на научной конференции по Луне в 1971 году. Ее эффективность казалась весьма впечатляющей: она сумела справиться с 78 % запросов без ошибок, причем эта цифра возросла до 90 % после исправления ошибок. Впрочем, цифры эти не должны были вводить в заблуждение, ведь не случайно система не стала предметом интенсивной эксплуатации: ученый, стремящийся использовать систему для своих повседневных рабочих нужд, быстро бы обнаружил, что ему нужны запросы, выходящие за пределы возможности системы.
Система LIFER/LADDER была одной из наиболее впечатляющих систем автоматизированной обработки текстов. Она была сконструирована как естественно-языковой интерфейс к базе данных кораблей ВМС США. Она использовала семантическую грамматику, в которой функционировали метки типа «КОРАБЛЬ» или «ХАРАКТЕРИСТИКА» вместо синтаксических меток по типу «существительное» или «глагол». Это означало, что система, как и SHRDLU, была тесно привязана к области, для которой была изначально сконструирована. Тем не менее, использование разработчиками семантической грамматики дало ряд преимуществ в разработке дружественного к пользователю интерфейса по сравнению с SHRDLU. Например, в систему была включена возможность определения новых словарей, определения парафразов (например, чтобы сделать возможным быстрый доступ), возможность обработки незаконченного или неполного ввода. Эти свойства сами по себе были очень впечатляющими, но исследовательская группа приступила к программе строгой оценки и опубликовала доклад, ставший настоящим сокровищем для тех, кто стремился глубоко изучать автоматическую обработку текстов. Одним из выводов доклада было то, что люди быстро подстраивались под машину и пытались использовать очень неполные предложения, заменяя нормальный естественный язык подобием неформального языка запросов.
С середины семидесятых годов во всем мире наблюдается устойчивое возрастание интереса к машинному переводу. В Москве в 1974 в институте ИНФОРМ-ЭЛЕКТРО начались работы по