Категории

Блог
Справочная литература
- Справочники
- Энциклопедии
- Прочая справочная литература
- Руководства
- Словари
Научные и научно-популярные книги
- Шпаргалки
- Ботаника
- Экология
- Биохимия
- О животных
- Государство и право
- Рефераты
- Математика
- Зарубежная публицистика
- Транспорт, военная техника
- Педагогика
- География
- Зоология
- География
- Ветеринария
- Зарубежная психология
- Астрология
- История
- Психология
- Деловая литература
- Политика
- Прочая научная литература
- Религиоведение
- Химия
- Радиотехника
- Архитектура
- Техническая литература
- Юриспруденция
- Науки: разное
- Любовные романы
- Психология, личное
- Медицина
- Научпоп
- Науки о космосе
- Беременность, ожидание детей
- Языкознание
- Детская психология
- Физика
- История Европы
- Культурология
- Социология
- Психотерапия
- Образовательная литература
- Биология
- Воспитание детей, педагогика
- Альтернативная медицина
- Учебники
- Литературоведение
- Филология
- Иностранные языки
- Обществознание
Проза
- Антисоветская литература
- Семейный роман/Семейная сага
- Новелла
- Юмор
- Феерия
- Сентиментальная проза
- Современная проза
- Классическая проза
- Повести
- Советская классическая проза
- Русская классическая проза
- Историческая проза
- Русская современная проза
- Контркультура
- Зарубежная современная проза
- Проза
- Зарубежная классика
- О войне
- Эпистолярная проза
- Магический реализм
- Разное
- Рассказы
- Афоризмы
- Очерки
- Эссе
Фантастика и фэнтези
- Ироническое фэнтези
- Ненаучная фантастика
- Романтическое фэнтези
- Бизнес
- Альтернативная история
- Научная Фантастика
- Социально-психологическая
- Фэнтези
- Юмористическая фантастика
- Космическая фантастика
- Разная фантастика
- Русское фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Попаданцы
- Киберпанк
- LitRPG
- Городская фантастика
- Сказочная фантастика
- Мистика
- Эпическая фантастика
- Детективная фантастика
- Героическая фантастика
- Историческое фэнтези
- Разное фэнтези
- Боевое фэнтези
- Зарубежная фантастика
- Технофэнтези
- Иностранное фэнтези
- Любовное фэнтези
- Историческая фантастика
- Романтическая фантастика
- Городское фентези
- Книги магов
- Космоопера
- Ироническая фантастика
- Социально-философская фантастика
- Стимпанк
- Постапокалипсис
Любовные романы
- Фемслеш
- Любовно-фантастические романы
- Современные любовные романы
- Короткие любовные романы
- Остросюжетные любовные романы
- Исторические любовные романы
- Эротика
- love
- Зарубежные любовные романы
- Роман
- Прочие любовные романы
- Слеш
- Порно
Детская литература
- Школьные учебники
- Детская познавательная и развивающая литература
- Детские детективы
- Книга-игра
- Книги для подростков
- Детская проза
- Сказка
- Учебная литература
- Прочая детская литература
- Детская образовательная литература
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детский фольклор
- Книги для дошкольников
- Детские стихи
- Зарубежные детские книги
- Внеклассное чтение
Религия и духовность
- Хиромантия
- Религия: окультизм
- Религия: протестантизм
- Религия: ислам
- Индуизм
- Религия
- Прочая религиозная литература
- Эзотерика
- Самосовершенствование
- Религия: христианство
- Язычество, паганизм
- Православие
- Буддизм
- Зарубежная религиозная литература и эзотерика
- Религии: разное
- Религия: иудаизм
Юмор
- Комедия
- Сатира
- Юмористическая проза
- Юмористическое фэнтези
- Прочий юмор
- Юмористические стихи
- Драматургия
- Анекдоты
Детективы и Триллеры
- Юридический триллер
- Зарубежные боевики
- Детектив
- Классический детектив
- Криминальный детектив
- Крутой детектив
- Полицейский детектив
- Триллер
- Боевик
- Шпионский детектив
- Иронический детектив
- Исторический детектив
- Иностранный детектив
- Политический детектив
- Маньяки
Поэзия, Драматургия
- Верлибры
- в стихах
- Палиндромы
- Водевиль
- Мистерия
- Экспериментальная поэзия
- Визуальная поэзия
- Басни
- Эпическая поэзия
- Зарубежная поэзия
- Поэзия
- Драматургия
- Драма
- Трагедия
- Лирика
- Песенная поэзия
- Сценарии
- Театр
- Киносценарии
- Кино, театр
Бизнес
- Работа с клиентами
- Кадровый менеджмент
- Ораторское искусство / риторика
- Личная эффективность
- Менеджмент
- Государственное и муниципальное управление
- Зарубежная деловая литература
- Переговоры
- Делопроизводство, офис
- Корпоративная культура, бизнес
- Управление, подбор персонала
- Менеджмент и кадры
- Маркетинг, PR, реклама
- Финансы
- Бизнес
- О бизнесе популярно
- Экономика
- Малый бизнес
- Тайм-менеджмент
- Бухучет и аудит
- Поиск работы
- Ценные бумаги и инвестиции
- Краткое содержание
- Банковское дело
- Продажи
- Личные финансы
- Интернет-бизнес
Разная литература
- Отраслевые издания
- Начинающие авторы
- Подростковая литература
- Зарубежная прикладная литература
- Шахматы
- Недвижимость
- Спецслужбы
- Пословицы, поговорки
- Культура и искусство
- Современная литература
- Истории из жизни
- Прочее
- Периодические издания
- Фанфик
- Гиды, путеводители
- Военное
- Военная техника, оружие
- Современная зарубежная литература
- Литература 19 века
- Музыка, танцы
- Военная история
- Газеты и журналы
- Зарубежная образовательная литература
- Кино
- Визуальные искусства
- Музыка, музыканты
- Авто и ПДД
- Великолепные истории
- Изобразительное искусство, фотография
- Боевые искусства
- Цитаты из афоризмов
- Готические новеллы
Компьютеры и Интернет
- Компьютерное "железо"
- Программирование
- Прочая околокомпьтерная литература
- Программы
- Интернет
- Базы данных
- Программное обеспечение
Документальные книги
- Биографии и Мемуары
- Публицистика
- Прочая документальная литература
- Критика
- Искусство и Дизайн
- Военная документалистика
Домоводство, Дом и семья
- Фэн-шуй
- Домашнее хозяйство
- Охота
- Ремонт в квартире
- Интерьеры
- Рыбалка
- Спорт
- Эротика, Секс
- Кулинария
- Здоровье
- Прочее домоводство
- Сад и огород
- Хобби и ремесла
- Развлечения
- Домашние животные
- Семейная психология
- Сделай сам
- Дом, семья
- Отдых / туризм
Приключения
- Зарубежные приключения
- Вестерн
- Прочие приключения
- Путешествия и география
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
Старинная литература
- Зарубежная старинная литература
- Прочая старинная литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Античная литература
- Фольклор
- Древнерусская литература
- Древневосточная литература

Меню

Самые читаемые

Мачеха Золушки - попаданка - Мария Максонова

30 золотых за истинную - Наталья Дорофеева

Десерт для мажора и Лисёны - Маргарита Аланина

Мы сгорим вместе. Сводные. - Маргарита Аланина

Россия в кривых зеркалах. Том 1 - Николай Левашов

RUSBOOK.SU » Компьютеры и Интернет » Интернет » Интернет-разведка. Руководство к действию - Евгений Ющук

Интернет-разведка. Руководство к действию - Евгений Ющук

Читать онлайн Интернет-разведка. Руководство к действию - Евгений Ющук

Шрифт:

Интервал:

Закладка:

Сделать

1 2 3 4 5 6 7 8 9 10 ... 59

Перейти на страницу:

Чтобы пользователь получил в руки независимый от платформы и при этом простой инструмент, Бернерс-Ли создал HTML (HyperText Markup Language, то есть Язык гипертекстовой разметки). Все Web-документы, отформатированные с помощью тегов HTML, видны совершенно одинаково во всем мире, вне зависимости от типа компьютера, на котором человек открыл страницу сайта. Поэтому и сегодня при переводе файла в формат HTML, например, на машине, работающей под управлением операционной системы MacOS, можно быть уверенным в том, что этот файл будет выглядеть точно так же и на компьютере, работающем под управлением Windows.

Затем Бернерс-Ли придумал Universal Resource Identifier – метод стандартизации адресов, при котором компьютерам в Интернете присваиваются уникальные адреса (сегодня мы их называем URL, это то, что в привычном для пользователя виде обычно начинается с «www»). Наконец, изобретатель собрал вместе все эти элементы, создав систему в форме Web-серверов, которые хранят HTML-документы и предоставляют их другим компьютерам, создавая HTML-запросы о документах по определенным URL.

Но Бернерс-Ли хотел видеть Интернет как информационное пространство, в котором можно получить свободный доступ к данным любых типов. На ранних этапах развития глобальной Сети преобладали простые текстовые документы HTML. К тому времени существовали системы поиска информации на локальных машинах, поэтому появилось несколько серверов, которые пытались проиндексировать какую-то часть страниц Web и прежде, чем отправляться за чем-то в Интернет, предлагали поискать необходимые сведения на этих серверах.

При этом основная проблема заключалась в том, чтобы отыскать страницы, которые в принципе можно бы было индексировать. Поскольку Интернет лишен централизованной структуры и общего оглавления, единственный способ, позволявший добиться этого, состоял в поиске ссылки на страницу и переходе по этой ссылке, с последующим добавлением найденного ресурса к индексу.

Однако вскоре возникла еще одна проблема. Наиболее популярные страницы посещались пауками чаще остальных, так как на них указывало максимальное количество ссылок. Пауки, количество и возможности которых были ограничены, «зависали» на таких страницах и впустую расходовали ресурсы, оставляя непосещенным множество других адресов, пока еще менее популярных. Для решения этой проблемы требовалось создать программу, которая позволила бы игнорировать уже проиндексированные страницы и сосредоточиться на поиске новых. Иначе это грозило проблемой с ресурсами.

В 1993 г. студент-физик Массачусетского технологического института Мэтью Грей (Mathew Gray) создал первый широко известный Web-робот, названный «World Wide Web Wanderer» или просто «Вандерер», что в переводе с английского означает «скиталец» или «странник». Дело в том, что Грей заинтересовался статистикой. Результатом такого увлечения стало появление «странника»: изобретение было призвано помочь студенту проанализировать размеры Интернета и скорость его роста. «Вандерер» просто приходил на страницу и определял сам факт ее существования, не занося в базу содержимого найденного адреса. Несмотря на то, что создатель робота не преследовал никаких других целей, его детище, фактически дебютировавшее в «забеге» прогрессивных интернет-находок, легло в основу более сложных программ, которые к умению «скитальца» перемещаться по Сети добавили способность сохранять содержимое страниц в базе данных после их посещения.

Случилось так, что 1994 г. стал переломным в истории создания поисковых машин. Студент выпускного курса Вашингтонского университета Брайан Пинкертон (Brian Pinkerton) устал от бесконечной череды электронных писем, которые посылали ему друзья, с информацией о хороших сайтах, найденных ими в Интернете. Безусловно, сайты ему были нужны, однако шквал посланий с их адресами раздражал, а посещение всех страниц отнимало уйму времени. Однако Пинкертон нашел решение проблемы – он создал робота, которого назвал WebCrawler (что-то вроде «вездеход для Интернета»). «ВебКраулер», как и «Вандерер», ползал со страницы на страницу, запоминая при этом весь текст Web-документа и сохраняя его в базе данных, которая была доступна поисковым словам. Изобретатель представил свое детище публике в апреле 1994 г., причем сделал это виртуально – через Web-интерфейс. База данных в тот момент содержала информацию с 6000 самых разных серверов. Уже через неделю она начала расширяться, причем ежедневный прирост составлял более 100 новых серверов. Так родилась первая поисковая машина.

Тогда же был введен в обиход интернетчиков термин «краулер» или «паук», который применяется, как мы уже говорили, и по сей день.

Ну а далее ситуация развивалась еще более стремительно. Крис Шерман и Гари Прайс приводят такую хронологию возникновения и развития современных поисковых машин.

1994 г. – WebCrawler, Lycos, Yahoo!

1995 г. – Infoseek, SavvySearch, AltaVista, MetCrawler, Excite. Появление метапоисковых машин.

1996 г. – HotBot, LookSmart.

1997 г. – NorthernLight.

1998 г. – Google, InvisibleWeb.com.

1999 г. – FAST.

2000 г. и далее – Сотни новых поисковых машин.

Русскоязычные поисковые машины появлялись в такой последовательности:

1996 г. – Rambler (www.rambler.ru);

1997 г. – Yandex (www.yandex.ru);

2004 г. – русскоязычная версия Google (www.google.ru) и русскоязычная версия Yahoo! (http://ru.yahoo.com).

Из чего состоит сайт

Прежде, чем перейти к описанию языка запросов поисковых машин, рассмотрим, из каких элементов, с которыми предстоит работать пауку, состоит обычно сайт.

Надо сказать, что язык HTML достаточно прост и логичен. Он представляет собой способ разбивки текста с помощью специальных элементов – тегов, которые определяют структуру и внешний вид текста при просмотре его в браузере. О тегах следует знать, что они всегда парные и что они бывают открывающими (обозначают начало определенного форматирования) и закрывающими (обозначают его окончание). Закрывающий тег – такой же по написанию, как открывающий, но перед ним стоит косая черта.

Приведем пример очень простого сайта (рис. 1).

Рис. 1. Пример сайта, как его видно в браузере Мозилла Файрфокс.

Наверху страницы, изображенной на рисунке, то есть не в тексте сайта, а на верхнем поле рамки страницы, рядом с круглым значком браузера, расположена надпись: «Показываем устройство сайта». Она находится в так называемом заголовке страницы (который заключен между открывающим тегом <TITLE> и закрывающим тегом </TITLE>). Обращаем ваше внимание на то, что это заголовок именно всей страницы, а не текста.

Посередине представленного рисунка жирным курсивом выведено: «Это простой сайт». Данная надпись – и есть заголовок текста. Шрифт фразы «Это простой сайт» по размеру превосходит шрифт текста на сайте, он специально выделен как заголовок текста. При разметке с помощью HTML этот текст расположен ниже тега <TITLE>, но при этом вместе с тегом <TITLE> находится внутри тега <Head>. То есть содержимое, заключенное в <TITLE>, – это часть того, что находится в <Head>. Такое расположение дает дополнительную возможность пауку лучше определять ключевые слова на сайте. Ведь если слова вынесены в заголовок текста или, тем более, всей страницы, вероятность того, что страница и текст посвящены теме, формулируемой этими словами, повышается.

Ниже фразы «Это простой сайт» приведены четыре варианта написания основного текста сайта:

– обычный;

– жирный (пишется под тегом );

– курсив (пишется под тегом );

– текстовая гиперссылка (пишется под тегом <A HREF=http://www.url. ru>«Текст гиперссылки»</A>).

Основной текст сайта, вне зависимости от того, каким вариантом шрифта он написан, располагается внутри тега <BODY>. Именно содержимое тега <BODY> представляет собой основной объект для паука и рассматривается им как текст страницы (собственно, это действительно текст страницы).

Чтобы увидеть внутреннюю разметку сайта, надо в браузере Мозилла Файрфокс навести курсор на любой незанятый текстом участок поля и нажать правую кнопку мыши. В всплывающем меню следует выбрать пункт «Просмотр исходного кода страницы».

Применительно к сайту, который мы рассматривали на рис. 1, этот исходный код будет выглядеть следующим образом:

<HTML>

<HEAD>

<TITLE>

Показываем устройство сайта:

</TITLE>

Это простой сайт

</CENTER>

</HEAD>

<BODY>

Это текст на сайте. Обычный шрифт.

Жирный шрифт.

Курсив.

<A HREF=http://www.url.ru>«А это – гиперссылка»</A>

</BODY>

</HTML>

Здесь можно увидеть все элементы, описанные нами выше. Кроме того, в исходном коде видны теги , которые обеспечивают расположение текста в новой строке и с промежутком по отношению к тексту, расположенному в предыдущей строке.

1 2 3 4 5 6 7 8 9 10 ... 59

Перейти на страницу:

На этой странице вы можете бесплатно скачать Интернет-разведка. Руководство к действию - Евгений Ющук торрент бесплатно.

Пожаловаться на ошибку