Одураченные стати­стикой: логические ошибки
Статистика
10K
Сгенерированное изображение — Лев Переулков / Midjourney

Одураченные стати­стикой: логические ошибки

9
Аватар автора

Алексей Смагин

ведет курс по визуализации данных

Страница автора

В предыдущих материалах цикла «Одураченные статистикой» мы много рассказывали о том, как авторы искажают информацию на графиках.

В этот раз сосредоточимся на логических ошибках — неверных выводах и неправильно использованных статистических параметрах.

Как манипулируют, показывая совпадение трендов

В статистике есть такое понятие, как корреляция. Это взаимосвязь двух величин: например, чем меньше в каком-то районе города водителей такси, тем дороже поездки. Однако корреляция не означает причинно-следственную связь. Например, если мы увидим, что богатые люди умирают в более пожилом возрасте, вывод «чтобы дольше прожить, нужно больше зарабатывать» будет неверен. Скорее всего, на продолжительность жизни влияют другие факторы: хорошая медицина, здоровое питание, возможность заниматься спортом.

Иногда связь параметров можно объяснить каким-то дополнительным фактором, но немало случаев, когда эта связь случайна. Сайт Spurious Correlations ищет и коллекционирует подобные абсурдные связи: например, потребление маргарина на душу населения и количество разводов в штате Мэн. Каждый раз, когда авторы статей, где используется статистика, показывают вам зависимость одной величины от другой, полезно задуматься, есть ли у такой связи обоснования.

Как манипулируют, подменяя понятия

Яркий пример подмены понятий — статистика от фирмы LLC Attorney, оказывающей юридические услуги малому бизнесу. Компания подсчитала, как быстро крупнейшие корпорации США зарабатывают средний оклад своего сотрудника. Текст сопровождается цитатой: «…вы будете поражены, увидев, как быстро эти гигантские компании способны получать доход, достаточный для выплаты заработной платы каждому из своих сотрудников в течение всего года».

Крупнейшие корпорации и правда получают очень много денег, но одна деталь в этой публикации делает посыл LLC Attorney более убедительным и в то же время гораздо более манипулятивным. В материале все расчеты сделаны исходя из выручки компании, а не ее прибыли. В реальности же в некоторых отраслях прибыль может существенно отличаться от выручки: например, по данным Chartr, прибыль Walmart составляет всего 2% от доходов компании.

Подобные разборы часто публикуются и в Т⁠—⁠Ж: вы можете посмотреть, сколько в среднем на самом деле зарабатывает бизнес при продаже одной порции шаурмы или чашки капучино.

Как манипулируют, скрывая распределение значений

Журналисты сети изданий М125 провели в социальных сетях опрос «Сколько секса вам необходимо для счастья?». Результаты выложили в виде карты, а в телеграм-канале дополнили подписью: «Красносельскому району, Медведково и Восточному Измайлово, судя по всему, грозит вымирание — это единственные районы, в которых сексом не занимаются».

С этой публикацией сразу две проблемы. Во-первых, вывод журналиста слишком смелый: чтобы говорить про вымирание, надо доказать, что смертность в районах превышает рождаемость, — а с опросом это никак не связано. Отдельные вопросы вызывает карта: по ней может показаться, что некоторые районы очень сильно отличаются от остальных. В реальности это вряд ли так.

Подобное впечатление создается из-за того, что на карте визуализировали самый частый вариант ответа, проигнорировав то, насколько он опережает другие. Честнее было бы визуализировать долю каждого из вариантов отдельно — тогда такой разницы бы не было.

Наглядный пример похожей манипуляции — визуализация результатов выборов в США. Члены команды Трампа в 2019 году, когда президенту грозил импичмент, стали публиковать карту муниципалитетов США, полностью окрашенную в цвет республиканцев: она показывала, что Трамп на прошедших выборах победил в абсолютном большинстве из них. В реальности результат выборов был не таким разгромным, а по числу голосов Хиллари Клинтон даже обошла Трампа.

Результаты выборов в США вообще не стоит визуализировать на обычных картах, однако даже добавление оттенка, кодирующего степень отрыва кандидата, уже меняет восприятие картинки.

Как манипулируют, используя неправильные показатели

Еще один манипулятивный прием — использование среднего арифметического в случаях, когда оно плохо описывает выборку объектов. Представьте себе класс, где сидит 15 пятиклассников с идеальными коренными зубами, а их преподаватель — дедушка, которому заменили все 32. В среднем каждому из сидящих в классе заменили по два зуба. Логично? Кажется, не очень.

Эта манипуляция наиболее хорошо известна на примере сообщений о средних зарплатах в России. Люди всякий раз высмеивают новости об очередном росте средней зарплаты, поскольку официальная статистика отличается от их субъективной реальности в несколько раз.

Доходы — тот самый случай, когда не стоит говорить о среднем: распределение зарплат по своей форме заметно смещено в сторону низких доходов. Иными словами, тех, кто получает немного, значительно больше, чем тех, кто получает много. Для таких распределений корректнее использовать медиану — числовую величину, для которой ровно половина значений больше, а половина меньше. Например, в 2023 году, по данным Росстата, среднемесячная номинальная начисленная заработная плата составила 74 854 ₽, а медианная зарплата за тот же год — 46 751 ₽.

Как манипулируют, изменяя форму распределения

Неприятную правду можно скрыть даже тогда, когда вроде бы есть полные данные о распределении значений какого-то показателя. Один из вариантов такой манипуляции демонстрирует Росстат. Доходы россиян в своем статистическом сборнике «Социально-экономическое положение России» ведомство дает в разбивке по разным интервалам: от 7 до 10 тысяч, от 10 до 14, от 14 до 19 — разница между минимальной и максимальной суммами становится все больше.

Визуализация РБК наглядно демонстрирует, что из-за этого создается ложное впечатление: кажется, что людей с небольшими и относительно большими доходами немного, а большинство россиян живет на «средний» доход — от 27 до 45 тысяч рублей. В реальности картина другая: распределение доходов, как мы уже говорили, сильно смещено в сторону небольших значений.

О чем стоит помнить

  1. Если вам рассказывают о связи каких-то показателей, обращайте внимание на обоснованность таких выводов. Просто показать совпадающие тренды — недостаточно.
  2. Если вам показывают самое частое значение для какой-то группы, от вас могут скрывать часть информации. Обычно полезно знать, как другие варианты отличаются от лидирующего.
  3. Когда смотрите на распределение какой-то величины, обратите внимание на интервалы: в некоторых случаях неравные интервалы могут быть попыткой манипуляции.

Жизнь россиян в цифрах: что едят, сколько работают, куда ездят и на что тратят деньги. Подписывайтесь, чтобы не пропустить самое интересное: @t_stata

Алексей СмагинСталкивались с похожими манипуляциями? Расскажите об этом: