Основные этапы работы поисковых систем.
Обработка сайта:
Кроулинг - считывание кода страниц сайта роботом, процесс обхода страниц сайта и сбора данных. В зависимости от характеристик сайта (тематика, величина), поисковый робот определяет расписание, когда заходить и проверять наличие нового контента и проводить сбор статистики по работе сайта;
Индексация - процесс, в котором все полученные данные со страницы преобразуются в документ (Инвертированный файл), в основном состоящий из слов с индексами. Индексы показывают частоту упоминания слова на странице, а так же основную информацию о нём;
Поиск:
Анализ запроса - поисковая фраза проверяется, устанавливается индекс к каждому слову, приводится в упрощённый для поиска вид, что позволяет найти в базе данных все документы соответствующие (релевантны) данной фразе.
Ранжирование - определение какая страница более соответствует запросу, по множеству факторов (авторитетность источника, полнота ответа, тематика ссылающихся сайтов...), тем самым выстраивая их в список. Так получается поисковая выдача.