Категории

Блог
Справочная литература
- Справочники
- Энциклопедии
- Прочая справочная литература
- Руководства
- Словари
Научные и научно-популярные книги
- Шпаргалки
- Ботаника
- Экология
- Биохимия
- О животных
- Государство и право
- Рефераты
- Математика
- Зарубежная публицистика
- Транспорт, военная техника
- Педагогика
- География
- Зоология
- География
- Ветеринария
- Зарубежная психология
- Астрология
- История
- Психология
- Деловая литература
- Политика
- Прочая научная литература
- Религиоведение
- Химия
- Радиотехника
- Архитектура
- Техническая литература
- Юриспруденция
- Науки: разное
- Любовные романы
- Психология, личное
- Медицина
- Научпоп
- Науки о космосе
- Беременность, ожидание детей
- Языкознание
- Детская психология
- Физика
- История Европы
- Культурология
- Социология
- Психотерапия
- Образовательная литература
- Биология
- Воспитание детей, педагогика
- Альтернативная медицина
- Учебники
- Литературоведение
- Филология
- Иностранные языки
- Обществознание
Проза
- Антисоветская литература
- Семейный роман/Семейная сага
- Новелла
- Юмор
- Феерия
- Сентиментальная проза
- Современная проза
- Классическая проза
- Повести
- Советская классическая проза
- Русская классическая проза
- Историческая проза
- Русская современная проза
- Контркультура
- Зарубежная современная проза
- Проза
- Зарубежная классика
- О войне
- Эпистолярная проза
- Магический реализм
- Разное
- Рассказы
- Афоризмы
- Очерки
- Эссе
Фантастика и фэнтези
- Ироническое фэнтези
- Ненаучная фантастика
- Романтическое фэнтези
- Бизнес
- Альтернативная история
- Научная Фантастика
- Социально-психологическая
- Фэнтези
- Юмористическая фантастика
- Космическая фантастика
- Разная фантастика
- Русское фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Попаданцы
- Киберпанк
- LitRPG
- Городская фантастика
- Сказочная фантастика
- Мистика
- Эпическая фантастика
- Детективная фантастика
- Героическая фантастика
- Историческое фэнтези
- Разное фэнтези
- Боевое фэнтези
- Зарубежная фантастика
- Технофэнтези
- Иностранное фэнтези
- Любовное фэнтези
- Историческая фантастика
- Романтическая фантастика
- Городское фентези
- Книги магов
- Космоопера
- Ироническая фантастика
- Социально-философская фантастика
- Стимпанк
- Постапокалипсис
Любовные романы
- Фемслеш
- Любовно-фантастические романы
- Современные любовные романы
- Короткие любовные романы
- Остросюжетные любовные романы
- Исторические любовные романы
- Эротика
- love
- Зарубежные любовные романы
- Роман
- Прочие любовные романы
- Слеш
- Порно
Детская литература
- Школьные учебники
- Детская познавательная и развивающая литература
- Детские детективы
- Книга-игра
- Книги для подростков
- Детская проза
- Сказка
- Учебная литература
- Прочая детская литература
- Детская образовательная литература
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детский фольклор
- Книги для дошкольников
- Детские стихи
- Зарубежные детские книги
- Внеклассное чтение
Религия и духовность
- Хиромантия
- Религия: окультизм
- Религия: протестантизм
- Религия: ислам
- Индуизм
- Религия
- Прочая религиозная литература
- Эзотерика
- Самосовершенствование
- Религия: христианство
- Язычество, паганизм
- Православие
- Буддизм
- Зарубежная религиозная литература и эзотерика
- Религии: разное
- Религия: иудаизм
Юмор
- Комедия
- Сатира
- Юмористическая проза
- Юмористическое фэнтези
- Прочий юмор
- Юмористические стихи
- Драматургия
- Анекдоты
Детективы и Триллеры
- Юридический триллер
- Зарубежные боевики
- Детектив
- Классический детектив
- Криминальный детектив
- Крутой детектив
- Полицейский детектив
- Триллер
- Боевик
- Шпионский детектив
- Иронический детектив
- Исторический детектив
- Иностранный детектив
- Политический детектив
- Маньяки
Поэзия, Драматургия
- Верлибры
- в стихах
- Палиндромы
- Водевиль
- Мистерия
- Экспериментальная поэзия
- Визуальная поэзия
- Басни
- Эпическая поэзия
- Зарубежная поэзия
- Поэзия
- Драматургия
- Драма
- Трагедия
- Лирика
- Песенная поэзия
- Сценарии
- Театр
- Киносценарии
- Кино, театр
Бизнес
- Работа с клиентами
- Кадровый менеджмент
- Ораторское искусство / риторика
- Личная эффективность
- Менеджмент
- Государственное и муниципальное управление
- Зарубежная деловая литература
- Переговоры
- Делопроизводство, офис
- Корпоративная культура, бизнес
- Управление, подбор персонала
- Менеджмент и кадры
- Маркетинг, PR, реклама
- Финансы
- Бизнес
- О бизнесе популярно
- Экономика
- Малый бизнес
- Тайм-менеджмент
- Бухучет и аудит
- Поиск работы
- Ценные бумаги и инвестиции
- Краткое содержание
- Банковское дело
- Продажи
- Личные финансы
- Интернет-бизнес
Разная литература
- Отраслевые издания
- Начинающие авторы
- Подростковая литература
- Зарубежная прикладная литература
- Шахматы
- Недвижимость
- Спецслужбы
- Пословицы, поговорки
- Культура и искусство
- Современная литература
- Истории из жизни
- Прочее
- Периодические издания
- Фанфик
- Гиды, путеводители
- Военное
- Военная техника, оружие
- Современная зарубежная литература
- Литература 19 века
- Музыка, танцы
- Военная история
- Газеты и журналы
- Зарубежная образовательная литература
- Кино
- Визуальные искусства
- Музыка, музыканты
- Авто и ПДД
- Великолепные истории
- Изобразительное искусство, фотография
- Боевые искусства
- Цитаты из афоризмов
- Готические новеллы
Компьютеры и Интернет
- Компьютерное "железо"
- Программирование
- Прочая околокомпьтерная литература
- Программы
- Интернет
- Базы данных
- Программное обеспечение
Документальные книги
- Биографии и Мемуары
- Публицистика
- Прочая документальная литература
- Критика
- Искусство и Дизайн
- Военная документалистика
Домоводство, Дом и семья
- Фэн-шуй
- Домашнее хозяйство
- Охота
- Ремонт в квартире
- Интерьеры
- Рыбалка
- Спорт
- Эротика, Секс
- Кулинария
- Здоровье
- Прочее домоводство
- Сад и огород
- Хобби и ремесла
- Развлечения
- Домашние животные
- Семейная психология
- Сделай сам
- Дом, семья
- Отдых / туризм
Приключения
- Зарубежные приключения
- Вестерн
- Прочие приключения
- Путешествия и география
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
Старинная литература
- Зарубежная старинная литература
- Прочая старинная литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Античная литература
- Фольклор
- Древнерусская литература
- Древневосточная литература

Меню

Самые читаемые

Мачеха Золушки - попаданка - Мария Максонова

30 золотых за истинную - Наталья Дорофеева

Десерт для мажора и Лисёны - Маргарита Аланина

Мы сгорим вместе. Сводные. - Маргарита Аланина

Россия в кривых зеркалах. Том 1 - Николай Левашов

RUSBOOK.SU » Компьютеры и Интернет » Интернет » Электронные издания - Владимир Вуль

Электронные издания - Владимир Вуль

Читать онлайн Электронные издания - Владимир Вуль

Шрифт:

Интервал:

Закладка:

Сделать

1 ... 75 76 77 78 79 80 81 82 83 ... 118

Перейти на страницу:

Практика показывает, что при индексировании можно указывать одновременно и атрибут NAME и атрибут HTTP-EQUIV с одинаковыми значениями. Это связано с тем, что одни роботы-индексировщики анализируют содержание META-элемента по атрибуту NAME, а другие – по атрибуту HTTP-EQUIV [42]. В качестве примера на рис. 8.1 приводится заголовочная часть HTML-документа, полученного в результате конвертирования этого раздела, подготовленного в редакторе Word 2000, в HTML-формат с помощью диалогового окна Сохранить как , где в качестве типа файла указано значение Web-страница .

Рис. 8.1. Начало заголовочной части HTML-документа

На рис. 8.1 показана только малая часть содержимого контейнера <HEAD> и </HEAD>. Все содержимое превышает 400 строк текста. Гипертекстовый документ представляется в формате HTML 5.0, который еще не утвержден в качестве стандарта и поддерживается только программными средствами фирмы Microsoft. С помощью самого тега <META> представлена информация о том, что для подготовки исходного документа и его преобразования в HTML-формат использовался редактор Word и что кодировка текста соответствует странице Windows-1251. Затем следует заголовок документа, который совпадает с названием раздела. Далее в тэге комментариев (< !– – >) указаны его свойства (<o:DocumentProperties>). В свойствах размещены сведения о тематике документа (<o:Subject>Учебное пособие для студентов СЗИП ПГУТД </o:Subject>), авторе (o:Author>В. А. Вуль</o:Author>), времени создания документа (2002-01-02), количестве содержащихся в нем страниц, слов и символов, а также строк (125) и абзацев (22). Перечислены также ключевые слова, но, к сожалению, это лишь те ключевые слова, которые автоматически выделяет из текста редактор Word 2000 в режиме команды Автореферат меню Сервис . Попутно отметим, что основную часть содержательных сведений автор занес вручную в диалоговом окне Свойства , вызываемом с помощью одноименной команды меню Файл . Следует также заметить, что поисковые роботы не умеют пока обрабатывать новые тэги языка HTML, представленные в версии 5.0. Таким образом, пока практически вся информация, заносимая в заголовочную часть HTML-документа в данном редакторе, совершенно не используется в поисковых стратегиях, а лишь увеличивает объем гипертекстового документа (см. также главу 4). В дальнейшем следует ожидать увеличение роли мультимедийных данных и их постепенное включение в электронные издания, хранимые на нижнем уровне издательской БД. Это потребует разработки новых поисковых стратегий и модернизации тэга <META> таким образом, чтобы он позволял описывать не только текстовые, но и мультимедийные компоненты.

8.1.2. Организация поиска документов по заданной тематике

Каждый раз в начале любой исследовательской работы, фундаментальной, поисковой или прикладной, авторы должны выполнить этап просмотра основных литературных источников и составление резюме или постановки задачи на этой основе. Большинство современных научных и инженерных публикаций может быть обнаружено в сети Интернет. Поиск и классификация этих документов требует обычно определенных затрат времени, но, в большинстве случаев, может быть выполнена без участия человека, т. е. этот процесс может быть формализован и автоматизирован. Остановимся на методике автоматизации процесса поиска и классификации документов, извлекаемых из сети Интернет.

Прежде всего возникает вопрос, на каком поисковом сервере искать нужные литературные источники? Здесь можно отталкиваться от результатов исследования работы шести поисковых серверов, входящих в десятку наиболее известных – AltaVista, Excite, HotBot, Infoseek, Lycos и Northern Light. Сотрудники исследовательского центра NEC Research Institute в Принстоне – пришли к выводу [1], что с помощью одной поисковой системы можно найти не больше одной трети размещенных в WWW документов по заданной тематике. Хотя авторы и не указывают методику оценки релевантности найденных документов, но в целом с ними следует, видимо, согласиться. Согласно данным этой статьи в совокупности индексы всех шести поисковых служб охватывают в 3,5 раза больше документов, чем каждый из них. Из этого следует вывод: самый простой способ повысить шансы на успех при поиске информации – использовать сразу несколько поисковых механизмов. В этом случае, к сожалению, многократно возрастает объем работы по поиску и просмотру найденных ссылок, что делает задачу автоматизации данной процедуры еще более актуальной.

Успешность или эффективность поиска документа (или их набора в определенной предметной области) зависит не только от качества построения запроса, но и от особенностей организации баз данных на поисковом сервере. От этого зависит и эффективность самого способа построения запроса. Одним из важнейших признаков эффективности поиска данных является степень автоматизации отбора информации в базу данных сервера.

В частности, возможен ручной отбор информации, когда специалисты осуществляют исследование, отбор и каталогизацию информации, которая размещается в библиотеках или базах данных. Такой способ достаточно традиционен, так как много лет применялся работниками реферативных служб библиотек. Получаемая в результате информационная структура носит название предметного или тематического каталога. Это иерархическая структура во многом подобна обычному библиотечному каталогу. Верхний уровень структуры характеризуется самыми общими категориями, а элементы нижнего уровня представляют собой ссылки на отдельные издания, включая их краткое описание. Такой каталог, чаще всего, бывает недостаточно полный, но зато характеризуется высокой осмысленностью и четкой логикой отбора изданий. Создание и поддержка таких каталогов требует значительных усилий и средств. К наиболее известным инструментам этого типа относятся Yahoo, Virtual Library, Galaxy . Именно в таких каталогах, по нашему мнению, целесообразно выполнить предварительный поиск и просмотр литературы, чтобы отобрать заведомо пригодные, нужные и важные работы по поставленной проблеме .

Из-за высокой стоимости и малой скорости каталогизации Web-страниц и сетевых изданий, на большинстве поисковых серверов применяются автоматизированные методы и процессы отбора информации. В частности, при организации ссылочных баз данных на поисковых серверах используется методика, которая ранее применялась для организации полнотекстовых баз данных. В них в результате автоматической обработки документов создается так называемый полнотекстовый индекс , т. е. список всех значащих слов, содержащихся в документе. С каждым словом в таком поисковом индексе связан указатель – индекс ссылок , который характеризует позицию слова внутри документа. Размеры этих вспомогательных структур достаточно велики, поэтому следует стремиться снизить их избыточность, в результате чего обязательно повысится и эффективность выборки информации. Простейший способ повышения эффективности состоит в создании списка неиндексируемых слов – так называемого стоп-листа, в который включаются малозначащие слова: союзы, предлоги, артикли, многие наречия и прилагательные, а также те глаголы и существительные, содержательная роль которых сравнительно мала.

Используется и более тонкая стратегия индексирования, основанная на законах Зипфа [41]. Известный математик Зипф установил, что частота, с которой данное слово встречается в тексте, и количество слов, характеризуемых данной частотой, связаны определенной зависимостью, напоминающей гиперболу. Наиболее значимые слова лежат в средней части графика этой гиперболы. Этот закон справедлив для любого языка, а также характеризует множество других статистических распределений. Закон Зипфа хорошо согласуется с практикой. Действительно, слова с низкой частотой повторения обычно малозначимы, т. е. слабо связаны с тематикой документа, его смысловыми особенностями. С другой стороны, слова с самыми высокими частотами либо входят в упомянутый выше стоп-лист, либо обеспечивают связный, литературный характер повествования, т. е. малоинформативны с точки зрения тематики документа. Таким образом, предварительно проанализировав документ и выбрав для него диапазон рабочих частот, можно автоматически определить некоторое число наиболее значимых или ключевых слов для документа.

Более подробно законы Зипфа и их применение рассмотрены в следующих разделах. Методы использующие законы Зипфа легли в основу автоматических методов построения ссылочных индексов на серверах. В поисковом сервере этого типа обычно используется программа просмотра и индексирования документов, называемая поисковым роботом , а так же информационная база ссылочных данных с определенной поисковой стратегией и интерфейс, призванный обеспечить максимальные удобства пользователю в процессе работы с этой базой данных. Большинство серверов (AltaVista, Lycos, Excite, WebCrawler и др.), в которых используют базы ссылок объемом в десятки миллионов документов, применяют именно автоматические индексы.

1 ... 75 76 77 78 79 80 81 82 83 ... 118

Перейти на страницу:

На этой странице вы можете бесплатно скачать Электронные издания - Владимир Вуль торрент бесплатно.

Пожаловаться на ошибку