как Яндекс индексирует новости? объясните механизм попадания в топ

757
3
0
8 мая
22:43
май
2016

Все сообщения попадают в Яндекс.Новости автоматически. Их экспортируют онлайновые издания, с которыми у Яндекса заключено соглашение об информационном сотрудничестве. Представьте себе пылесос, который работает 24 часа в сутки и 7 дней в неделю - так выглядит процесс индексирования, в результате которого каждый день в базу данных сервиса попадают полные тексты десятков тысяч партнёрских сообщений. Ни модерации, ни редактуре на стороне Яндекса эти тексты не подвергаются.

В Яндекс.Новостях работает алгоритм, который с помощью анализа текста умеет собирать вместе сообщения об одном и том же. В результате получается "сюжет" - множество сообщений об одном событии. Именно на странице сюжета оказывается пользователь, кликнув на новостной заголовок на главной странице Яндекса. В каждом сюжете есть краткая информация о событии и ссылки на сообщения, пройдя по которым можно подробнее узнать что случилось.

Онлайновые издания ежедневно освещают огромное количество событий - что-то важное каждый день происходит в различных регионах и сферах жизни. Алгоритм ранжирования системы Яндекс.Новости отвечает за то, чтобы в первую очередь пользователь мог увидеть самое важное. Сюжеты ранжируются по количеству сообщений в них, по частоте этих сообщений и по авторитетности написавших их изданий. В результате в топ попадают события, о которых прямо сейчас много пишут самые авторитетные онлайновые издания страны. Для России это российские издания, для Украины - украинские и т.п.

Бывает, что формально критериям важности отвечают сюжеты о событиях, которые в данный момент времени по существу не так уж важны. Например, о любом спортивном событии всегда пишут гораздо больше, чем о многих политических. Каждый гол, каждое падение спортсмена в ходе ответственного матча может быть темой отдельной заметки. Алгоритм ранжирования в Яндекс.Новостях умеет учитывать такие ситуации, а также попытки искусственных "накруток" критериев важности. Борьба с "накрутками" происходит не с помощью ручного редактирования, а с помощью улучшения алгоритма. Этот путь долгий и трудоёмкий, но для Яндекс.Новостей он единственный возможный - только так система сможет работать в режиме онлайн.

3
1
май
2016

У Яндекса есть список источников, которые он считает релевантными (им может стать любое СМИ, соответствующее условиям агрегатора). У каждой новости есть условные ключевые слова, например: "парад победы красная 2016 путин". Новость появляется в этих релевантных источниках и чем их больше, тем больше у нее шансов выйти в топ

2
0
май
2016

Учитывая, что на Гизмодо в данный момент обсуждается вот эта статья о том, что в Фэйсбук тренды подкручивались руками в пользу либеральных СМИ и задвигались консервативные СМИ,  странно думать, что в Яндексе не существует аналогичного механизма ручной подкрутки.

http://gizmodo.com/former-facebook-workers-we-routinely-suppressed-conser-1775461006

Даже с учетом того, что такие механизмы ручной регулировки нужны для борьбы с накруткой сюжетов, я лично допускаю, что у любого аггрегатора всегда есть большой соблазн использовать его для пропаганды.

А правду знает только Яндекс.

1
0
Если вы знаете ответ на этот вопрос и можете аргументированно его обосновать, не стесняйтесь высказаться
Ответить самому
Выбрать эксперта