Привет, дорогие друзья! Сегодня речь пойдёт об известной всем игре "Что? Где? Когда?". А именно, мы озадачимся вопросом: честно ли играют знатоки или же есть некая доля фальсификации. Ниже я приведу статистическое исследование, в котором будет рассматриваться распределение исходов игр знатоков с 2002 по 2013 годы. Чтобы при сильном желании и недоверии скептический читатель имел шанс проверить исследование и даже повторить его, я прилагаю графики, таблицы и скрипты на языке Python. Поехали!

Данные для анализа взяты с официального сайта игры http://chgk.tvigra.ru/letopis/ с 2002 по 2013 годы. Почему с 2002 года? Я это выбрал по техническим причинам: более ранние года гораздо сложнее парсятся и я решил не заморачиваться на них. Чтобы извлечь данные с их сайта, я написал специальный скрипт (не руками же всё переписывать). Собственно, сам скрипт и итоги его работы к вашим услугам.

chgk_parse.py

letopis.csv

Теперь пара слов об анализе. Предполагается, что вопрос для знатоков выбирается случайно, а значит есть объективная вероятность того, ответят ли знатоки на вопрос или нет. С 2002 по 2013 годы (по опубликованной на их сайте информации) было задано 1799 вопросов, из которых знатоки ответили на 900. Таким образом вероятность ответить равна 50% (а если чуть точнее: 50.0277932184547%). Предполагая случайность вопросов, можно предсказать вероятность любого исхода игры. Для этого нужно следовать статистической формуле:

$$ C^{min(z, t)}_{z + t - 1} P^{z} (1 - P)^{t} $$

где P - вероятность ответить, z - очки, набранные знатоками за игру, t - очки телезрителей. То есть, если игра закончилась со счётом 6:4, то z = 6 и t = 4.

Например, вероятность того, что игра окончится со счётом 6:5 в пользу знатоков равна 12.3%, вероятность победы телезрителей со счётом 3:6 равна 10.9% и т.д. Вот вся таблица:

0:60.016
1:60.047
2:60.082
3:60.109
4:60.123
5:60.123
6:50.123
6:40.123
6:30.110
6:20.082
6:10.047
6:00.016

Разумеется, у этой вероятности есть свои пределы достоверности. То есть реальная наблюдаемая вероятность счёта должна находиться в определённой зоне достоверности, например, с 95% вероятностью (что соответствует двум сигма, говоря языком статистики). Вооружившись ещё одним скриптом, вычисляем реальные вероятности исходов игр и сравниваем это с теоретической моделью. Посмотрим на график:

chgk_analyse.py

Красным обозначена реальная вероятность исхода игры, жёлтым - расчёт теоретической модели. Синие усы - это диапазон 95% достоверности исхода, то есть реальная вероятность должна присутствовать в этом диапазоне с вероятностью 95%. Если же реальная вероятность вылезла за пределы этих усов, то так может быть, но только если очень повезёт (это 5% для каждого столбика). Для большего интереса я ещё добавил зелёные столбики - это один из возможных случайных раскладов, но в пределах теоретический модели.

Как мы видим, все зелёные столбики попали в пределы теоретических усов. Вероятность этого 0.95^12 = 54% (12 - потому что у нас 12 столбиков и каждый из них попал в диапазон 95%). В принципе, даже если один столбик вышел бы за усы, то ничего страшного, вероянтость этого: 12 * 0.05 * 0.95^11 = 34%. Поэтому вероятность, что выйдут два и более столбика 12%. А теперь посмотрим на график внимательнее: исторический расклад по играм (красные столбики) показывает, что за усы выходят целых три столбика из двенадцати. Статистика нам даёт, что вероятность выхода трёх и более столбиков составляет всего 2%. Другими словами, лишь с вероятностью 2% можно сказать, что результаты игры "Что? Где? Когда?" проходят честно и в соответствии с предложенной моделью.

Какие выводы и замечания напрашиваются? Как уже говорилось, вероятность статистического расклада по итогам игр всего 2%. 2% против 98% - выводы делайте сами! Кроме этого можно заметить, что телезрители слишком редко выигрывают с разгромным счётом (3:6 и более). А у знатоков почему-то подозрительно часто получается вырвать победу со счётом именно 6:5; из графика вообще напрашивается вывод, что при счёте 5:5 вероятность ответить на вопрос у знатоков становится около 70%, хотя до этого всегда была 50%. Похоже, ребята чувствуют ответственность и умеют собраться в самый последний момент! А может быть дело в другом?