Категории

Блог
Справочная литература
- Справочники
- Энциклопедии
- Прочая справочная литература
- Руководства
- Словари
Научные и научно-популярные книги
- Шпаргалки
- Биофизика
- Ботаника
- Экология
- Биохимия
- О животных
- Государство и право
- Рефераты
- Математика
- Зарубежная публицистика
- Транспорт, военная техника
- Педагогика
- География
- Зоология
- География
- Ветеринария
- Зарубежная психология
- Астрология
- История
- Психология
- Деловая литература
- Политика
- Прочая научная литература
- Религиоведение
- Химия
- Радиотехника
- Архитектура
- Техническая литература
- Юриспруденция
- Науки: разное
- Любовные романы
- Психология, личное
- Медицина
- Научпоп
- Науки о космосе
- Беременность, ожидание детей
- Языкознание
- Детская психология
- Физика
- История Европы
- Культурология
- Социология
- Психотерапия
- Образовательная литература
- Биология
- Воспитание детей, педагогика
- Альтернативная медицина
- Учебники
- Литературоведение
- Филология
- Иностранные языки
- Обществознание
Проза
- Антисоветская литература
- Семейный роман/Семейная сага
- Новелла
- Юмор
- Феерия
- Сентиментальная проза
- Современная проза
- Классическая проза
- Повести
- Советская классическая проза
- Русская классическая проза
- Историческая проза
- Русская современная проза
- Контркультура
- Зарубежная современная проза
- Проза
- Зарубежная классика
- О войне
- Эпистолярная проза
- Магический реализм
- Разное
- Рассказы
- Афоризмы
- Очерки
- Эссе
Фантастика и фэнтези
- Ироническое фэнтези
- Ненаучная фантастика
- Романтическое фэнтези
- Бизнес
- Альтернативная история
- Научная Фантастика
- Социально-психологическая
- Фэнтези
- Юмористическая фантастика
- Космическая фантастика
- Разная фантастика
- Русское фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Попаданцы
- Киберпанк
- LitRPG
- Городская фантастика
- Сказочная фантастика
- Мистика
- Эпическая фантастика
- Детективная фантастика
- Героическая фантастика
- Историческое фэнтези
- Разное фэнтези
- Боевое фэнтези
- Зарубежная фантастика
- Технофэнтези
- Иностранное фэнтези
- Любовное фэнтези
- Историческая фантастика
- Романтическая фантастика
- Городское фентези
- Книги магов
- Космоопера
- Ироническая фантастика
- Социально-философская фантастика
- Стимпанк
- Постапокалипсис
Любовные романы
- Порно
- Эротика
- Фемслеш
- Любовно-фантастические романы
- Современные любовные романы
- Короткие любовные романы
- Остросюжетные любовные романы
- Исторические любовные романы
- love
- Зарубежные любовные романы
- Роман
- Прочие любовные романы
Детская литература
- Школьные учебники
- Детская познавательная и развивающая литература
- Детские детективы
- Книга-игра
- Книги для подростков
- Детская проза
- Сказка
- Учебная литература
- Прочая детская литература
- Детская образовательная литература
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детский фольклор
- Книги для дошкольников
- Детские стихи
- Зарубежные детские книги
- Внеклассное чтение
Религия и духовность
- Хиромантия
- Религия: окультизм
- Религия: протестантизм
- Религия: ислам
- Индуизм
- Религия
- Прочая религиозная литература
- Эзотерика
- Самосовершенствование
- Религия: христианство
- Язычество, паганизм
- Православие
- Буддизм
- Зарубежная религиозная литература и эзотерика
- Религии: разное
- Религия: иудаизм
Юмор
- Комедия
- Сатира
- Юмористическая проза
- Юмористическое фэнтези
- Прочий юмор
- Юмористические стихи
- Драматургия
- Анекдоты
Детективы и Триллеры
- Юридический триллер
- Зарубежные боевики
- Детектив
- Классический детектив
- Криминальный детектив
- Крутой детектив
- Полицейский детектив
- Триллер
- Боевик
- Шпионский детектив
- Иронический детектив
- Исторический детектив
- Иностранный детектив
- Политический детектив
- Маньяки
Поэзия, Драматургия
- Верлибры
- Зарубежная драматургия
- в стихах
- Палиндромы
- Водевиль
- Мистерия
- Экспериментальная поэзия
- Визуальная поэзия
- Басни
- Эпическая поэзия
- Зарубежная поэзия
- Поэзия
- Драматургия
- Драма
- Трагедия
- Лирика
- Песенная поэзия
- Сценарии
- Театр
- Киносценарии
- Кино, театр
Бизнес
- Работа с клиентами
- Кадровый менеджмент
- Ораторское искусство / риторика
- Личная эффективность
- Менеджмент
- Государственное и муниципальное управление
- Зарубежная деловая литература
- Переговоры
- Делопроизводство, офис
- Корпоративная культура, бизнес
- Управление, подбор персонала
- Менеджмент и кадры
- Маркетинг, PR, реклама
- Финансы
- Бизнес
- О бизнесе популярно
- Экономика
- Малый бизнес
- Тайм-менеджмент
- Бухучет и аудит
- Поиск работы
- Ценные бумаги и инвестиции
- Краткое содержание
- Банковское дело
- Продажи
- Личные финансы
- Интернет-бизнес
Разная литература
- Зарубежная литература о культуре и искусстве
- Отраслевые издания
- Начинающие авторы
- Подростковая литература
- Зарубежная прикладная литература
- Шахматы
- Недвижимость
- Спецслужбы
- Пословицы, поговорки
- Культура и искусство
- Современная литература
- Истории из жизни
- Прочее
- Периодические издания
- Фанфик
- Гиды, путеводители
- Военное
- Военная техника, оружие
- Современная зарубежная литература
- Литература 19 века
- Музыка, танцы
- Военная история
- Газеты и журналы
- Зарубежная образовательная литература
- Кино
- Визуальные искусства
- Музыка, музыканты
- Авто и ПДД
- Великолепные истории
- Изобразительное искусство, фотография
- Боевые искусства
- Цитаты из афоризмов
- Готические новеллы
Компьютеры и Интернет
- Компьютерное "железо"
- Программирование
- Прочая околокомпьтерная литература
- Программы
- Интернет
- Базы данных
- Программное обеспечение
Документальные книги
- Биографии и Мемуары
- Публицистика
- Прочая документальная литература
- Критика
- Искусство и Дизайн
- Военная документалистика
Домоводство, Дом и семья
- Фэн-шуй
- Домашнее хозяйство
- Охота
- Ремонт в квартире
- Интерьеры
- Рыбалка
- Спорт
- Эротика, Секс
- Кулинария
- Здоровье
- Прочее домоводство
- Сад и огород
- Хобби и ремесла
- Развлечения
- Домашние животные
- Семейная психология
- Сделай сам
- Дом, семья
- Отдых / туризм
Приключения
- Зарубежные приключения
- Вестерн
- Прочие приключения
- Путешествия и география
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
Старинная литература
- Зарубежная старинная литература
- Прочая старинная литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Античная литература
- Фольклор
- Древнерусская литература
- Древневосточная литература

Меню

Самые читаемые

Мачеха Золушки - попаданка - Мария Максонова

Десерт для мажора и Лисёны - Маргарита Аланина

30 золотых за истинную - Наталья Дорофеева

Мы сгорим вместе. Сводные. - Маргарита Аланина

Россия в кривых зеркалах. Том 1 - Николай Левашов

RUSBOOK.SU » Компьютеры и Интернет » Интернет » Электронные издания - Владимир Вуль

Электронные издания - Владимир Вуль

27.12.2023 - 19:28 3 0

Категория: Компьютеры и Интернет / Интернет
Название: Электронные издания
Автор: Владимир Вуль

Описание Электронные издания - Владимир Вуль

Книга посвящена рассмотрению всей совокупности проблем, связанных с созданием, воспроизведением на компьютере и практическим использованием электронных и мультимедийных изданий. В частности, показано место этих изданий в современной медиа-индустрии. Рассмотрено использование различных HTML-редакторов и специализированных программных средств создания электронных и мультимедийных изданий (MS FrontPage, Macromedia Director, DreamWeaver и Flash, а также 3ds max). В книгу также вошли разделы, связанные с публикацией и хранением электронных изданий с помощью баз данных, а также семантическим анализом, индексацией и организацией поиска и долговременного хранения электронных документов. Описаны электронные библиотеки как одно из сетевых средств распространения изданий, в том числе учебной электронной книги. Отдельная глава посвящена распространению электронной книги. Каждая глава книги содержит перечень вопросов для самоконтроля. В ряде глав приведено описание и методика выполнения самостоятельных работ, с помощью которых читатели могут закрепить полученные знания на практике. Книга рассчитана на широкий круг читателей, начиная со студентов технических вузов и школьников 10—11 классов, интересующихся современными компьютерными технологиями, и заканчивая специалистами и профессорско-преподавательским составом вузов.Для широкого круга пользователей PC.

Читать онлайн Электронные издания - Владимир Вуль

Шрифт:

Интервал:

Закладка:

Сделать

1 ... 77 78 79 80 81 82 83 84 85 ... 118

Перейти на страницу:

i = log2(n/m). (8.1)

С учетом инверсной частоты вес или значимость термина в каждом документе определится выражением

z = f × i/S, (8.2)

где z – вес или значимость термина в издании; f – частота повторения термина в этом издании; i – инверсная частота этого термина в группе издании; S – количество значащих слов в определенном издании. Кстати, вес или значимость одного и того же термина в различных изданиях обычно существенно отличается друг от друга. Роль инверсной частоты в приведенной формуле состоит в том, чтобы уменьшить вес слов и устойчивых словосочетаний, которые выполняют вспомогательные функции в документе, обеспечивая стиль и определенный характер повествования. Для случайных слов и сочетаний мала частота повторения терминов f, а для стоп-слов и вспомогательных понятий стремится к нулю инверсная частота i. Таким образом, вес или значимость термина z позволяет выделить именно ключевые слова и сочетания. Этот же параметр позволяет также ранжировать значащие слова, т. е. построить их последовательность в порядке значимости.

Законы Зипфа используются при пополнении ссылочной базы данных на поисковых серверах, причем весовые коэффициенты основаны не только на весе каждого термина, но могут учитывать и то, какой частью речи является термин, а также его местоположение внутри документа, морфологические особенности и пр. Они же применяются для оценки релевантности найденного в процессе поиска документа, величина которой изменяется от 0 до 1. Релевантность оценивается на основе того, какое количество слов из представленных в поисковом выражении содержится в найденном документе, а также веса каждого из таких слов, представленных в документе.

Дж. Зипф представил свои законы в 1949 году. Позднее они были уточнены на основе ряда практических исследований известным математиком Бенуа Мандельбротом (Benoit Mandlebrot). В настоящее время именно эти законы легли в основу алгоритмов автоматического распознавания текста и различных автоматических поисковых стратегий, некоторые из которых рассмотрены в данной книге.

8.3. Автоматизированный анализ текстовой информации с помощью программ-экстракторов

Мы уже несколько раз отмечали, что для любого осмысленного поиска в глобальной сети необходимо предварительно определить перечень ключевых слов, на основании которого затем формулируется запрос. Откуда взять такой текст-источник? Обычно имеется некая информация, на основе которой возник интерес к определенной проблеме. Это может быть научная статья, информационное сообщение, заметка или Web-страница. Если ничего из перечисленного не существует, то следует самому попытаться сформулировать задачу в виде небольшого текстового реферата.

Далее необходимо проанализировать текст-источник на предмет обнаружения в нем основных смысловых терминов или ключевых слов. Как было показано в предшествующем разделе, процесс определения веса или значимости термина в издании легко алгоритмизируется на основе законов Зипфа. Чтобы упростить себе задачу можно воспользоваться одной из простых программ, определяющих частоту, с которой каждое слово встречается в тексте. В частности, можно воспользоваться программой MTAS (файл mtasprog.exe), URL которой www.sas.upenn.edu/~bkat/dwnld.htm . Получив с помощью программы таблицу частот отдельных слов, выберем от 10 до 20 из них, частоты которых лежат посредине частотного диапазона. Если в список попадут отдельные слова, которые не могут трактоваться как термины, то в этом нет ничего плохого – в процессе поиска они могут оказаться полезными. По существу, вы вручную выполнили работу простой программы-экстрактора, т. е. осуществили синтаксический анализ текста и извлечение из него значащих слов и выражений. Также вручную, используя формулы (8.1) и (8.2), можно ранжировать извлеченные из текста ключевые слова и выражения, т. е. присвоить каждому из них определенный вес.

Естественно, что обработка небольших текстов, размеры которых не превышают половины страницы, может быть выполнена вручную по описанной выше методике. Однако для анализа больших работ желательно автоматизировать не только извлечение ключевых слов и выражений и их ранжирование, но и морфологический и синтаксический анализ текста. Именно для этой цели используются программы-экстракторы, рассмотрению которых посвящены три последующих раздела.

8.3.1. Извлечение значащих слов в редакторах MS Word

Для реализации указанной функции в редакторе Word используется команда Реферат в меню Сервис . Соответствующее команде диалоговое окно Автореферат показано на рис. 8.4.

Рис. 8.4. Диалоговое окно Автореферат

Как следует из данных рис. 8.4, реферат можно поместить в начало реферируемого документа или оформить в виде отдельного файла. Можно также регулировать размер реферата, задавая в процентах от основного текста количество предложений в нем. В примере выбрано значение 10%, вследствие чего в реферате содержатся 2 предложения, в то время как в исходном документе их было 21. Наряду с составлением реферата из текста документа извлекается 5 наиболее значимых слов. Для их просмотра следует воспользоваться командой Свойства меню Файл. Соответствующее диалоговое окно показано на рис. 8.5. Окно включает в себя 5 вкладок, из которых для нашей цели важна лишь одна – вкладка Документ, которая открыта на рис. 8.5.

Рис. 8.5. Интерфейс пакета MS Word 97 с открытым документом SOVR-IZD.DOC и диалоговым окном Свойства для этого документа с активной вкладкой Документ

Для того чтобы значимые или ключевые слова были занесены в нужное поле вкладки Документ диалогового окна Свойства , в нижней части предыдущего диалогового окна Автореферат (см. рис. 8.4), должен быть установлен флажок Обновить сведения о документе . В нашем примере в поле Ключевые слова представлено 5 слов, а именно: "в", "издательств", "области", "предусмотрен", "должен". Нетрудно заметить, что из пяти отобранных слов только одно соответствует тематике статьи "Современные издательства", причем одно из отобранных слов это предлог, который вообще не может иметь смысла, когда он берется отдельно от основного слова. Таким образом, качество отбора ключевых слов редактором Word 97 весьма низкое. Кстати, реферирование осуществляется только для работ с названием на английском (а не на русском) языке. Надо сказать, что редакторы Word 2000 и Word 2002 ничем существенным не отличаются от своего предшественника, т. е. опция Автореферат и автоматическое выделение ключевых слов с помощью этой опции работает для русскоязычного текста неудовлетворительно.

8.3.2. Выделение значащих слов в программе NRC Extractor

Выделение значащих или ключевых слов из изданий лучше выполнить с помощью специальных программ-экстракторов. Одна из первых таких программ и носит название Extractor . Она создана в Институте Информационных Технологий Национального исследовательского Совета (NRC) Канады. В настоящее время доступна версия 7.0 этой программы [40].

Рис. 8.6. Интерфейс программного пакета Extractor с результатами извлечения ключевых слов из документа extraktor1.txt

Extractor в качестве исходных данных использует текстовый документ, генерируя на выходе совокупность ключевых слов. Он обрабатывает тексты на английском, французском, японском, немецком, испанском и корейском языках. К сожалению, к русскому языку он пока не адаптирован. Алгоритм работы программы использует метод обучения на примерах. Алгоритм изначально предназначен для моделирования человеческого подхода к выбору ключевых слов. В большинстве случаев время работы программы с 10-страничным документом не превышает секунды. Пример интерфейса и результатов работы программы Extractor 7.0 с документом на английском языке представлен на рис. 8.6.

На рис. 8.6 представлен набор ключевых слов и выражений (Keyphrases) и основные фрагменты текста (Highlights). Ключевые слова в основных фрагментах текста (предложениях) автоматически выделяются жирным шрифтом, а наименее важные слова автоматически отображаются в серых (а не черных) тонах.

8.3.3. Семантический анализ текстов с помощью программы TextAnalyst

Разработанная фирмой Научно-производственный инновационный центр "МикроСистемы" отечественная программа-экстрактор TextAnalyst 1.5 позволяет на первых же этапах работы с текстами выделить основные термины и определить их вес и связи. Интерфейс и заставка программы представлены на рис. 8.7. Интересно отметить, что на американском рынке технологию TextAnalyst продвигает фирма Megaputer Intelligence Inc.

Демонстрационная версия этой программы доступна бесплатно на сайте фирмы. Применение программы резко сокращает время, необходимое эксперту для погружения в тематику, и дает множество подсказок и наводящих соображений для тонкого и углубленного анализа как всей информации в совокупности, так и отдельных ее фрагментов. Интересно отметить, что на одном из семинаров, где автор в числе прочего докладывал и об использовании данной программы в поисковых стратегиях, одним из слушателей был указан интересный аспект использования таких программ – для анализа текстов с целью определения их авторства.

1 ... 77 78 79 80 81 82 83 84 85 ... 118

Перейти на страницу:

На этой странице вы можете бесплатно скачать Электронные издания - Владимир Вуль торрент бесплатно.