Дима Гричанюк
март 2016.
287

Зависимость количества плюсов (y) от номера ответа по порядку (x) для одного из вопросов на TheQ. Почему такой график? Ещё некоторые вопросы в комментариях.

Ответить
Ответить
Комментировать
2
Подписаться
1
2 ответа
Поделиться

Ответы на вопрос сортируются по рейтингу. Поэтому далеко не всегда ответы, которые были даны раньше оказываются наиболее популярными. Обратите внимание, что, например, в том вопросе, который Вы рассматривали, самый "заплюсованный" ответ был дан 9 июня, когда как многие 6, то есть раньше. Но там есть и ответы, которые даны гораздо позже, но не смогли завоевать популярность.
Так что чтобы попасть в "топ", ответ действительно должен быть интересным. Ну а там, я думаю, срабатывает человеческий фактор, и далеко не все интересующиеся дочитывают список ответов до конца. Поэтому иногда первые ответы, которым удалось сначала набрать больше плюсов, плюсуют заметно больше. Ну а нам кажется, что плюсы получают только за то, что первые. Хотя вообще говоря, это совсем не так

4
Прокомментировать

Давайте сначала рассмотрим два гипотетических вопроса.

Первый — сколько будет дважды два? Скорее всего кто-то из пользователей быстро ответит на этот вопрос, а все остальные эксперты, увидев правильный ответ, поставят плюс. При этом новые ответы либо будут повторять самый популярный, либо будут объективно плохими. Да и не факт, что читатель продолжит читать ответы после того как найдет совпадающий с его мнением.

Второй вопрос — какая цифра вам больше всего нравится? На этот вопрос возможно ответить только десятью разными способами. При этом вероятнее всего, что первым будет дан ответ с самой популярной цифрой — ответ, который позже получит наибольшее число плюсов.

Этими характерными вопросами я хотела показать, что далеко не всегда зависимость между тем насколько рано был дан ответ и его рейтингом — случайна и негативно влияет на рейтинг ответов.

Теперь я бы хотела обсудить более общую проблему построения рейтинга: как по косвенным оценкам выявить "лучший" из двух объектов. В общем случае рейтинг не обязательно является суммой "плюсов" и "минусов", а рассчитывается по некоторой формуле. Формула может зависеть от количества оценок, их даты и кучи других признаков.

В качестве известного решения подобной проблемы можно привести рейтинг Эло. Задача подобных рейтингов в том, чтобы по результатам предыдущих игр среди всех шахматистов предсказать результат игры конкретных двух. Соответственно и качество рейтинга оценивается его предсказательной способностью. Интересно, что рейтинг Эло сегодня используется далеко не только в шахматах. В научной литературе я встречала статьи о других рейтингах решающих такую же задачу лучшей рейтинга Эло.

На сайтах вроде reddit.com, quora.com, dirty.ru и других, комментарии, например, сортируются по более сложным правилам, учитывающим новизну, количество и качество ответов в ветке и т.д. В статье про алгоритм ранжирования реддита сказано, что благодаря логарифмической шкале первые оценки получают больший вес, чем остальные. Первые 10 плюсов имеют такой же вес, как последующие 100, или ещё следующие 1000 и т.д.

В конце я предлагаю подумать над тем, какую цель преследует рейтинг ответов на TheQuestion. Рейтинг Эло предсказывает результат игры; алгоритм ранжирования Google сортирует ссылки, чтобы пользователь кликнул по верхней; а что делает рейтинг ответов? Может быть максимизирует общее количество плюсов за все ответы к вопросу? Или число ссылок на ответ из социальных сетей?

1
Прокомментировать
Ответить