Одураченные статис­тикой: два самых частых способа обмана при помощи некор­ректных графиков
Статистика
4K
Сгенерированное изображение — Лев Переулков / Midjourney

Одураченные статис­тикой: два самых частых способа обмана при помощи некор­ректных графиков

О чем нужно знать, чтобы не попасться на удочку манипуляторов
5
Аватар автора

Алексей Смагин

учит студентов визуализировать данные

Страница автора

Графики делают статьи и презентации убедительнее, но не всегда отражают реальность.

Мы запускаем новую рубрику — «Одураченные статистикой», в которой будем рассказывать, как авторы инфографики и аналитических материалов обманывают читателей. Разберемся, какие приемы они используют и как не дать себя обмануть. В этой статье я расскажу о хитростях, которые применяют при визуализации данных.

Как работает визуализация данных

Человеческому мозгу проще обрабатывать информацию, представленную в виде картинки, а не виде букв и цифр. В этом главное преимущество и главная опасность инфографики. С одной стороны, визуализация данных избавляет нас от необходимости сравнивать величины в уме, с другой — ставит в зависимость от автора изображения.

Поверхностно посмотрев на некоторые графики, легко сделать неверный вывод. Иногда авторы подобных работ делают ошибки ненамеренно, а иногда — осознанно манипулируют зрителями. Чтобы не попасться на такие манипуляции, полезно понимать, как вообще работают графики.

В основе визуализации данных — кодирование информации при помощи разных свойств геометрических фигур. Это может быть, например, высота, площадь, положение фигур или их цвет.

На иллюстрации ниже — инфографика из статьи Т⁠—⁠Ж, где визуализированы температуры в Москве. Каждая полоска обозначает месяц, ее положение — конкретную дату на временной оси, цвет — был ли этот месяц более теплым или более холодным, чем в среднем тот же месяц в 1961—1990 годах. Благодаря картинке мы можем понять, что температура в 1991—2021 годах почти всегда была выше, чем в среднем в аналогичные месяцы 30 лет назад.

Источник: Т⁠—⁠Ж
Источник: Т⁠—⁠Ж

Как манипулируют при помощи некорректного отображения данных

Одно из важных свойств инфографики — строгое соответствие данным. Если размеры, положение и цвета элементов не будут изменяться пропорционально числам, инфографика получится даже вредной.

Простейший пример такой «вредной» инфографики — картинка, которую опубликовала в социальной сети X администрация Центрального района Минска. Кроме прочих ошибок положение точек на оси здесь не соответствует значениям чисел. На этом графике 160 музеев в 2011 году выглядят меньше, чем 156 музеев в 2016. Это похоже на осознанную манипуляцию — так делают, когда хотят продемонстрировать рост показателя при реальном его отсутствии.

Как манипулируют, делая оси не от нуля

Еще одна распространенная проблема — когда разницу между числами хотят показать больше, чем на самом деле. Особенно явно видно это на примере абсурдной картинки про рост женщин в разных странах.

Глядя на изображение ниже, можно подумать, что женщины в Индии в три раза ниже, чем женщины в Латвии. На самом же деле разница не так велика — просто отсчет на графике начали не от нуля.

Это правило особенно важно соблюдать для диаграмм, в которых числа закодированы высотой или площадью фигуры — например, столбиковых диаграмм, или, как их еще называют, барчартов. Однако делают это не все.

Ниже — пример классической манипуляции. Технологическая компания Snowflake сравнивает свою новую ИИ-модель с конкурентами и обрезает 96% оси, с 0 до 54, тогда как максимальное значение — 56. Если не вглядываться в числа, легко подумать, что их решение на голову выше всех разработок конкурентов. В реальности ситуация не такая радужная.

Когда можно делать оси не от нуля

Иногда ось не от нуля — это не ошибка дизайнера, а необходимость. Так бывает, когда данные не нужно сравнивать. Разберем на конкретном примере. Понятно, что возраст выхода на пенсию в разных странах будет различаться всего на несколько лет. Здесь важнее показать, какая из стран на каком месте. В этом случае дизайнеры могут использовать графики, в которых числовое значение кодируется не размером элемента, а его координатой.

Ниже — пример из Т⁠—⁠Ж. Здесь показана средняя продолжительность популярных песен, и ось длительности начинается с 1:30. Ничего страшного в этом нет: каждая песня обозначена точкой, так что мы отмечаем лишь их положение. К примеру, мы понимаем, что «Выпускной» Басты находится правее, чем песня Be Mine, но вряд ли будем сравнивать, насколько именно. Однако при взгляде на такие графики все равно полезно смотреть, откуда начинается ось, — чтобы точно не запутаться.

Как не стать жертвой манипуляторов

  1. Всегда смотреть не только на то, как визуализирована информация, но и на числа на графике. Иногда авторы изображений сознательно рисуют рост там, где его нет.
  2. Если элементы на графике кратно различаются по длине или высоте, полезно проверить, пропорционален ли их размер числам. Если окажется, что нет, — высока вероятность того, что разницу визуально завысили.
  3. Стоит смотреть на то, где начинаются и заканчиваются оси на графике. Так вы будете лучше понимать, как различаются числа.

Жизнь россиян в цифрах: что едят, сколько работают, куда ездят и на что тратят деньги. Подписывайтесь, чтобы не пропустить самое интересное: @t_stata

Алексей СмагинСталкивались с похожими манипуляциями? Расскажите или покажите: