Интернет-разведка. Руководство к действию - Евгений Ющук
Шрифт:
Интервал:
Закладка:
Здесь можно увидеть все элементы, описанные нами выше. Кроме того, в исходном коде видны теги <P>, которые обеспечивают расположение текста в новой строке и с промежутком по отношению к тексту, расположенному в предыдущей строке.
Разметка HTML по умолчанию не предполагает переноса текста и его форматирования. Поэтому текст, не содержащий никаких тегов, воспроизводится подряд, но с соблюдением пробелов между словами. Для того чтобы текст оказался написан не просто в новой строке, а с промежутком относительно находящейся выше строки, используется, как мы уже показали, тег <P>, а для того, чтобы текст был написан в новой строке, но без промежутка между выше– и нижерасположенной строками, применяется тег <BR>.
Начало сайта, созданного с помощью разметки HTML, отмечено тегом <HTML>, а его окончание – тегом </HTML>.
Описание языков запросов различных поисковых машин
Язык запросов поисковой машины Яндекс
Лучшая, на наш взгляд, работа по изучению операторов поисковой машины Яндекс выполнена специалистом из Санкт-Петербурга Денисом Фурсовым. На его ресурсе[3] постоянно проводятся дополнительные исследования, отслеживаются и оцениваются изменения в работе операторов указанной поисковой машины.
Ниже речь пойдет о том, как с помощью специальных фильтров, основанных на Булевой алгебре, создавать запросы, максимально соответствующие потребностям специалиста, который ищет информацию в Интернете.
При изучении этого вопроса, не следует забывать, что компьютер очень исполнителен, но лишен способности думать, поэтому следует составлять запрос, исходя из того, что он будет обработан компьютером буквально, а не с учетом того, что же на самом деле имел в виду пользователь, создавая свое обращение.
Лучше всех эту мысль проиллюстрировал летом 2005 г. Алексей Амилющенко, главный аналитик отдела маркетинга Яндекса на следующем примере.
Вот еще одна история с семинаров, но ее приходится рассказывать не очень часто. Иногда случается, что заходит разговор о том, что хорошо бы поисковым системам учитывать не только слова, которые есть в индексируемых документах, но и смысл написанного. В ответ говорю, что знаю фразу, про которую и человек-то не скажет, о чем это. Вот она.
Эти типы стали есть в прокатном цехе.
И что тут написано? Я знаю, минимум, три разных смысла. Не подглядывайте в ответ
сразу (он ниже). Попробуйте сначала самостоятельно…
Обычно, когда это предложение видит зал, сначала становится тихо (видно, что думают),
потом начинаются смешки (до кого-то дошло), потом хихикают уже все.
Но к делу, что же здесь все-таки написано?
1. Скучный такой вариант.
Эти типы стали (варианты металлопроката) есть (имеются в наличии) в прокатном цехе.
2. Более творческий, с элементами мизантропии.
Эти типы (неприятные автору личности) стали (начали) есть (принимать пищу) в прокатном цехе.
3. Несколько надуманный, конечно, но…
Эти типы стали (варианты металлопроката) есть (надлежит принимать в пищу) в прокатном цехе.
Вот видите, даже протеиновые мозги не справляются, а вы хотите, чтобы у силиконовых это получалось.
Текст запроса мы будем помещать в квадратные скобки [] для того, чтобы визуально выделить его из текста книги. Если уважаемый читатель решит ввести приведенные ниже запросы в поисковую строку поисковой машины, чтобы проверить их работоспособность на практике, то эти квадратные скобки вводить не надо.
Итак, перейдем непосредственно к операторам запросов Яндекса.
1. Логическое «И».
Яндекс поддерживает три разных оператора, относящихся к логическому «И», что делает его самым гибким из всех поисковиков, работающих с русским языком. Столь развитая, практически уникальная система операторов поисковых запросов дает возможность предельно точно настроить запрос и сформировать такой фильтр для данных в Интернете, который максимально качественно выбирает нужную информацию и отсекает ненужную.
1.1. Пробел.
Слова, разделенные пробелом, должны располагаться недалеко друг от друга. Специалисты поясняют, что термин «недалеко» отнюдь не фиксированная величина и меняется в зависимости от того, с какими словами указанный оператор в каждом конкретном случае используется. Если они часто употребляются, то «недалеко» – значит, на расстоянии нескольких слов друг от друга. Если же они редко встречаются в обиходе, то даже их нахождение в разных концах документа будет восприниматься как «недалеко».
При этом, несмотря на то, что логическое «И» в общем виде Булевой алгебры подразумевает присутствие всех упомянутых слов, Яндекс, тем не менее, действительно выдает сначала те документы, в которых есть все ключевые слова, представленные в запросе. После чего начинает выдавать документы, в которых на одно ключевое слово меньше, чем в запросе, затем – на два слова меньше и так далее.
Запрос: [маркетинг менеджмент]
Результат поиска: страниц – 2 442 393, сайтов – не менее 1456
В выдаче: Маркетинг, Финансы, Реклама, Менеджмент
1.2. Амперсанд (&).
Слова, разделенные амперсандом, находятся в одном предложении. Важно: амперсанд должен быть отделен пробелами с двух сторон от любых других слов.
Запрос: [маркетинг & менеджмент]
Результат поиска: страниц – 1 190 379, сайтов – не менее 1093
В выдаче: … Филип Котлер в краткой форме представляет все наиболее значительные и интересные положения самой известной своей работы «Маркетинг менеджмент»…
1.3. Двойной амперсанд (&&).
Слова, разделенные двойным амперсандом, находятся в любом месте одного и того же документа.
Важно: между амперсандами не должно быть пробелов, но сам оператор должен быть отделен пробелами с двух сторон от любых других слов.
Запрос: [маркетинг && менеджмент]
Результат поиска: страниц – 3 641 056, сайтов – не менее 1 295
В выдаче, к примеру, будут присутствовать учебные планы вузов, в которых слова «маркетинг» и «менеджмент» находятся в разных частях текста, в том числе – на разных страницах опубликованного в Интернете многостраничного плана занятий.
Чтобы увидеть это наглядно, читатели могут нажать в результатах выдачи гиперссылку «Найденные слова», которая приводится во всех итогах поиска. И тогда слова, которые есть в запросе, будут подсвечены и не придется тратить время на их «отлавливание» в тексте.
2. Логическое «НЕ».
Логическое «НЕ» представлено двумя операторами.
Прежде чем рассказать о них, отвечу на вопрос, который часто возникает у людей, впервые приступивших к изучению операторов поиска: «Зачем нужно логическое „НЕ“? Его ведь можно и вовсе не вводить, и тогда оно нам не понадобится!». Отвечаем: если мы сами решаем, что нам вводить, а что нет, то это утверждение справедливо. Но проблема в том, что часто в выдаче принудительно оказывается «мусор» и другого способа избавиться от него, кроме как убрать эти слова при помощи логического «НЕ», у нас нет. Так, например, если вас интересует конек крыши, то по слову «конек» в выдаче окажется информация и о роликовых, и о фигурных коньках, и даже о Коньке-Горбунке. Для таких-то случаев логическое «НЕ» и придумано.
Итак, вернемся к нашим операторам.
2.1. Тильда (~).
Знак тильды – это верхняя левая клавиша на буквенно-цифровой клавиатуре. Символ вводится на английском регистре с нажатой клавишей SHIFT. Как и амперсанд, тильда должна быть отделена пробелами с обеих сторон. Часто допускают ошибку, «приклеивая» тильду к следующему за ней слову. Иногда отсутствие пробела между тильдой и последующим словом не влияет на результат, но бывает и наоборот, поэтому лучше внимательно проследить за пробелами вокруг этого знака.
Тильда означает, по аналогии с диаметрально противоположным символом – амперсандом, что слова не должно быть в предложении.
Запрос: [маркетинг ~ менеджмент]
Результат поиска: страниц – 12 604 153, сайтов – не менее 4442
В выдаче: … комплексный подход к услуге интернет-маркетинга, охватывающий все возможности для продвижения интернет-представительств компаний в сети Интернет.
2.2. Двойная тильда (~~).
По аналогии с двойным амперсандом, двойная тильда пишется слитно внутри самого этого оператора, но отделяется от остальных слов пробелами с обеих сторон.
Она означает, что слова, которое за ней расположено, не должно быть в документе совсем.
Запрос: [маркетинг ~~ менеджмент]
Результат поиска: страниц – 9 675 995, сайтов – не менее 3 976
В выдаче: Форум по маркетингу и рекламе – Маркетинг и Реклама, маркетинговые коммуникации, виды рекламы: реклама в СМИ (печатная реклама, телереклама, радиореклама), наружная реклама, BTL: POS-материалы, У вас есть вопрос по маркетингу и рекламе?