Звуки и знаки - Александр Кондратов
Шрифт:
Интервал:
Закладка:
Десять лет спустя в Таллине вышел «Частотный словарь современного русского литературного языка», составленный Э. А. Штейнфельдт на основании обработки четырехсот тысяч слов.
Однако и этого словаря оказалось недостаточно. Объем текстов, взятых для словаря Штейнфельдт, был невелик. Причем четвертую часть его составляли произведения детской литературы. Естественно, это повлияло и на общую картину: в список частых попали такие слова, как пионер, штаб и т. п.
В 1966 году университет штата Огайо выпустил частотный словарь «разговорного русского языка». Составлен он был на основании обработки пьес. Мы же, как известно, далеко не всегда говорим так, как персонажи пьес классических и даже современных. Вот почему университет дружбы народов имени П. Лумумбы в Москве выпустил в 1968 году свой словарь, более точно отражающий разговорную лексику. В словарь вошло две тысячи триста восемьдесят наиболее употребительных слов русской разговорной речи.
Наконец настал черед и монументального «Частотного словаря русского языка». Такой словарь был издан в нашей стране в 1977 году и занял почти тысячу страниц. Его составителями были сотрудники филологического факультета Ленинградского университета и лаборатории семиотики НИИ прикладной математики и кибернетики при Горьковском университете. С помощью ЭВМ они обработали тексты объемом в миллион слов,
В словаре в алфавитном порядке от союза а до прилагательного ящичный приводится около сорока тысяч различных слов, встречавшихся в тексте. Рядом со словом дана его частота, сначала общая, а затем по основным четырем категориям, на которые были разделены все тексты (художественная проза; драматургия; научные и публицистические тексты; газетные и журнальные тексты). Тут же приведено и число разных текстов, в которых встречалось данное слово (ведь эта характеристика не менее важна, чем абсолютная частота, которая, как уже говорилось, может зависеть от специфики текста, сюжета и т. п.).
Вслед за алфавитно-частотным словарем идет частотный. Слова даны здесь в порядке убывания частот. На первом месте стоит предлог в. Вместе со своим вариантом предлогом во он встретился в текстах почти сорок три тысячи раз! На втором месте по частоте употребления идет союз и, он встретился более тридцати шести тысяч раз. Отрицание не — на третьем месте (около двадцати тысяч раз), на четвертом — предлог на (свыше семнадцати тысяч). Местоимение я занимает пятое место — оно встретилось в текстах около четырнадцати тысяч раз.
Верхнюю часть списка наиболее употребительных слов занимают предлоги, союзы, частицы, местоимения. Лишь в четвертом десятке этих слов появляется глагол мочь, числительное один, а на шестом десятке — существительное год и прилагательное большой. Зато потом эти части речи занимают львиную долю списка.
Текстообразовательная способность
Третья часть «Частотного словаря русского языка» посвящена статистическим данным. И статистика, приводимая в ней, нужна не только специалистам по математической лингвистике или теории вероятностей. Она имеет важное значение в практике, в отборе слов для изучения русского языка.
В текстах, объемом в миллион слов встретилось около сорока тысяч словоупотреблений. Но свыше тринадцати тысяч различных слов употреблены были всего лишь один раз, около шести тысяч — два раза. Ясно, что слова эти редкие, их нельзя включить в словари-минимумы. Столь же ясно, что слова, имеющие частоту в несколько тысяч, в эти словари должны быть включены обязательно. Легко провести черту между очень частыми и очень редкими словами. Но как провести ее между словами не очень частыми и скорее частыми, чем редкими? Сколько нужно слов для словаря-минимума?
Вопрос этот мы уже задавали в самом начале нашего рассказа. Теперь, когда вы узнали о частотных словарях, переформулируем его: какую часть слов из списка самых частых мы должны брать — сотню слов? тысячу? десять тысяч?
На помощь лингвистике вновь приходит статистика.
Обратимся к нашему «Частотному словарю русского языка». Первые десять слов (ничтожнейшая часть от общего числа различных слов) покрывают почти двадцать процентов всего текста. Первая сотня самых частых слов составляет лишь четверть процента словаря. Зато в тексте она покрывает свыше сорока процентов всех слов. Первая тысяча слов, два с половиной процента всех слов словаря, покрывает свыше шестидесяти семи процентов текста.
Около девяти тысяч слов встретилось в текстах десять и более раз. Слова эти составляют менее четверти всего словаря. Зато покрывают они более девяноста процентов текста. Остальные же тридцать тысяч слов не покрывают и восьми процентов всех текстов. Очевидно, заучивать эти тридцать тысяч слов нецелесообразно. Знание же слов с частотой «десять» и более позволит понимать практически весь текст.
Может быть, и в списке слов, имеющих частоты «десять» и выше, также можно сделать сокращения? Первая тысяча слов частотного словаря, будь то русский, испанский, английский, французский, немецкий или любой другой язык, покрывает значительную часть текста, Какую — зависит не только и не столько от конкретного языка, сколько от стиля, типа речи.
В английском языке тысяча самых употребительных слов покрывает около семидесяти процентов литературных текстов и свыше восьмидесяти процентов — научных. Во французском языке та же тысяча самых частых слов покрывает около восьмидесяти процентов литературных текстов и свыше девяноста — разговорной речи.
Но какими бы ни были вариации, ясно, что чем больше мы будем удаляться от «верхушки» частотного словаря, тем больше понадобится нам различных слов для покрытия (а стало быть, и перевода) текста.
Возьмем французский язык. Первая тысяча слов дала возможность покрыть свыше девяноста процентов разговорной речи. Но если мы добавим еще тысячу слов, то прирост будет равен всего четырем процентам. А следующие три тысячи слов увеличат покрываемость текста немногим более трех процентов.
Примерно та же картина получится, если мы возьмем другие языки или другие стили. В среднем первая тысяча самых частых слов покрывает около восьмидесяти процентов всего текста. Увеличение списка еще на одну тысячу дает прирост порядка шести процентов. Добавление следующей, третьей, тысячи позволит покрыть около трех процентов, четвертой — около двух процентов, пятой — немногим более одного процента текста.
«Пользуясь этими данными, можно разумно планировать введение лексики в ходе преподавания иностранного языка, — пишут советские специалисты, говоря о помощи, которую статистика и лингвистика оказывают преподаванию языков. — Так, если согласиться с тем, что за одно занятие учащиеся неспециального вуза могут усвоить 12–18 словоформ, то через 7—10 занятий они должны будут знать не менее 120 словоформ, покрывающих более чем 50 % текста. В этом случае учащийся должен узнавать и переводить по отдельности каждое второе слово неадаптированного текста данной специальности. Через 30–40 занятий учащемуся будет знакомо уже около 500 словоформ, покрывающих в среднем около двух третей всех словоупотреблений текста, а к концу первого учебного года учащийся сможет узнавать около 1000 словоформ, покрывающих около 80 % текста».
Словари, словари, словари…
В чем отличие частотного словаря от любого другого? Прежде всего в том, что вместе со словом в нем приводится и частота употребления этого слова в тексте. Слова могут идти либо в алфавитном порядке, либо по убыванию частот. В «Частотном словаре русского языка», как мы уже говорили, дается и алфавитный, и частотный списки. Частотный словарь может быть полным, когда в нем приводится список всех слов, встретившихся в тексте, и неполным, когда дается лишь список слов, встретившихся с определенной частотой. Так, алфавитный список «Частотного словаря русского языка» — полный, а частотный — неполный, он дает лишь список слов с частотой «десять» и более, остальные тридцать тысяч слов, менее употребительных, в него не включены.
Объем материала, который лег в основу словаря, в значительной мере влияет и на состав этого словаря. В зависимости от того, сколько тысяч или миллионов слов текста обследовалось — или просчитывалось на электронно-вычислительной машине — выделяют малые, средние и большие частотные словари (так, первые частотные словари английского языка были, безусловно, малыми, а словарь Торндайка и Лорджа, составленный по текстам в восемнадцать миллионов слов, относится, разумеется, к большим).
Однако на словарь влияет и стиль, и тематика, и жанр, и авторская принадлежность того или иного текста. Вот почему различают частотные словари устной и письменной речи, словари общие (вроде нашего «Частотного словаря русского языка») и отраслевые (например, Е. А. Калининой с помощью ЭВМ составлен частотный словарь русского подъязыка электроники). Есть словари отдельных произведений, как классиков, так и современных авторов. Составлены «персональные» частотные словари — Пушкина, Шекспира, Шевченко и других.