Поисковая оптимизация сайтов. Case study.
Идентификация роботов
Распознавание роботов представляет собой отдельную задачу. Самым надежным способом является идентификация по IP адресу. Это метод применим к большинству крупных поисковых систем, хотя время от времени эти адреса могут меняться. Такой метод не эффективен в отношении распределенных роботов (разнообразные утилиты для скачивания сайтов, персональные поисковые программы, экспериментальные роботы), которые могут находиться по произвольному IP адресу. Часть из них можно отсеять на основании информации о пользовательском агенте (user agent), если поддерживать соответствующий список. Некоторые роботы маскируются под широко распространенные браузеры (IE , Mozilla), либо являются таковыми (например, когда IE скачивает сайт на диск для просмотра в режиме offline). Против последних неплохо работают адаптивные методы, которые анализируют поведение удаленного клиента: если в течение короткого времени с одного IP адреса запрошено большое число страниц (например, 50 страниц в течение минуты), то с высокой вероятностью за ним прячется робот. Дополнительно можно использовать ряд косвенных признаков, скажем, факт запроса файла robots.txt или всегда пустое значение поля referrer в серии обращений. Реализованная таким образом трехуровневая система распознавания роботов оказалась весьма эффективной на практике.
|
Поисковая оптимизация и анализ:
Case Study
|