Итак. В ответ на запрос пользователя бот выдает результат поиска. Ищет он в собственном индексе. В индексе у него лежат сайты в том виде, в каком бот их понимает. У каждого бота это понимание свое, но общие черты прослеживаются. Индекс образуется двумя путями.
Первый - web-маз сам просит бот проиндексить его сайтец. Так поступают чаще всего с популярными и уважаемыми ботами. Для Рунета это: Яндекс, Рамблер и Апорт. Причем именно в такой последовательности. Хотя Рамблер с Яндексом соперничают в этом плане. На остальные боты можно не тратить время. Это мое мнение.
Второй путь - боты сами в «свободное от работы время» ползают по Инету и вынюхивают изменения. С новыми сайтами они поступают по разному. Чаще всего они принюхиваются к ним какое-то время, а потом, если, по мнению бота, со страницей все в порядке (посетители иногда появляются, спама нет и др.) - они его индексят. То есть заносят информацию о нем в свой индекс (базу данных). Самый тормозной в плане принюхивания - это Рамблер. Он принюхивается по несколько месяцев. Самый непридирчивый - Яндекс. Можно создать левый сайт и посмотреть, как скоро он самопроизвольно появится в том или ином поисковике. В Яндексе… ну, через месяц-два.
Кроме этого, боты следят за состоянием своего индекса. То есть за его соответствием реальному положению дел в Инете. Сайт может измениться, исчезнуть и т.д. Поэтому боты его обычно реиндексируют. Правда, можно запретить это мета-тегами и цивилизованные боты не будут этого делать.
воскресенье, 21 сентября 2008 г.
Подписаться на:
Комментарии к сообщению (Atom)
0 коммент.:
Отправить комментарий