Александр Климов
ноябрь 2015.
675

В чем суть центральной предельной теоремы?

Ответить
Ответить
Комментировать
0
Подписаться
0
1 ответ
Поделиться
АВТОР ВОПРОСА ОДОБРИЛ ЭТОТ ОТВЕТ

Давайте подбросим обычную монетку 10000 раз и посчитаем, сколько раз выпадет решка. Интуитивно кажется, что в среднем решка выпадет примерно 5000 раз, т.е. примерно в половине случаев. Это интуитивное понимание вполне разумно и подсказывает нам, что выполняется закон больших чисел: если много-много раз провести эксперимент, в котором вероятность успеха (в данном случае - выпадания решки) X%, то в среднем нужно ожидать ровно X% успехов.

Хорошо, в среднем мы получим 5000 решек. Насколько мы уверены в этом? Какова вероятность того, что количество решек будет от 4900 до 5100? Как выбрать такой диапазон вокруг 5000, чтобы количество выпавших решек попало в него с вероятностью 99%? На эти и другие вопросы отвечает центральная предельная теорема, которая гласит, что чем больше раз мы подбрасываем монетку, тем сильнее распределение вероятности приближается к колоколу нормального распределения.

Например, можно посчитать, что стандартная ошибка ("сигма") в нашем примере равна 50, и в интервал от 4900 до 5100 (плюс-минус две "сигмы") мы попадем с вероятностью 95%, а в интервал от 4850 до 5150 (плюс-минус три "сигмы") - с вероятностью больше 99%.

Посмотреть как работает центральная предельная теорема можно здесь: vctr.me

Суть эксперимента проста: каждый шарик, падая вниз, может несколько раз свернуть влево или вправо с вероятностью 50%. Если выставить параметры delay=10 (чтобы было быстрее ) и bins=21(чтобы было нагляднее), то через несколько минут шарики нарисуют столбики, близкие к колоколу нормального распределения.

7

Артем, благодарю Вас за ответ и ссылку на отличную визуализацию.

Могли бы Вы пояснить также наглядно, почему две сигмы обеспечивают именно 95% вероятность попадания на свой интервал, а не 92% или 98%, например?

0
Ответить

Правило двух сигм и 95% (а так же правило трёх сигм и 99.7%) следует из свойств нормального распределения.

Рассмотрим стандартное нормальное распределение N(0, 1), т.е. "колокол" со средним 0 и дисперсией 1. Функция распределения - это тот самый жуткий интеграл, который вы наверняка видели в учебниках, и который ни в коем случае не нужно запоминать. Главное, что значения этой функции F(x) можно высчитать даже в Excel - для этого есть функция S.DIST: office.com

Дальше с помощью Excel (или, в моём случае, LibreOffice) легко убедиться, что:

S.DIST(-2; true()) = 0.0228

D.DIST(2; true()) = 0.9772

Другими словами, стандартная нормальная величина (которая, напомню, имеет "сигму" 1) принимает значение меньше или равное -2 с вероятностью примерно 0.0228, а значение меньше или равное 2 с вероятностью 0.9772. Отсюда следует, что значения из интервала от -2 до 2 реализуется с вероятностью 0.9772 - 0.0228 = 0.9544, т.е. чуть больше 95%.

+1
Ответить
Прокомментировать
Ответить