LOOQME Блог

Почему плохая аналитика хуже ее отсутствия

Аналитика
Поскольку у данных нет своей естественной формы, их можно по-разному отражать. Единого правильного формата не найти. Одна визуализация будет более релевантной, другая - менее. Однако существует проблема искажения информации в случае ее некорректного отображения. Это случается по двум причинам:

  • сознательная манипуляция данными;
  • ошибочность из-за недостатка знаний.

Ложную визуализацию разделим на группы по нескольким проблемам. Рассмотрим каждую.

1. Построение не от "0".


Журнал Time в 1992 году опубликовал инфографику, где сравнивал марки автомобилей, проданные за последние 10 лет и остающиеся на ходу. Очевидно, здесь демонстрировали преимущество в надежности Chevrolet.



Но если бы график построили от нуля, разница между объектами воспринималась бы иначе. Столбики на графике выглядели бы почти равными. Посмотрите сами.



Этот график уже не столь показателен. Разница между автомобилями мизерная, хотя и присутствует. Потому, думаю, это сознательная манипуляция данными. Хорошо, что показали 5% -ную шкалу, проинформировав читателей, что это верхушка графика. Однако люди часто смотрят просто на столбики, "на глаз" их и сравнивают.

Прошло 25 лет. В 2017 году Google представляет новые смартфоны Pixel 2 и Pixel 2 XL. Преимущество - улучшенная камера.



Та же история. Смотрим на график, кажется, почти наполовину улучшилось качество. А теперь строим график, начиная с нуля.



Разница видна, но она не демонстрирует такое ​​крутое и очевидное конкурентное преимущество, как пытались показать. Вывод: сознательная манипуляция данными.

2. Неравномерность интервалов в динамике.


Когда строите линейный график, визуализировать даты нужно через одинаковый промежуток времени. Например: если начинаете с 1995 года, а следующий - 2000 год, то логично дальше отображать 2005 год и т.д. А если данные неравномерно распределяются по датам, то это нужно правильно визуализировать.

Посмотрим на график российского издания Meduza, который показывает рост доли православного населения в России.



Динамику визуализировали с 1991 по 2016 годы. Первое - начальная точка графика стартует с неизвестного периода. Второе - одинаковые по размеру интервалы содержат разное количество лет. Интервал между 1991 и 1992 годами такой же, как между 1992 и 1997 и так далее. По логике Meduza: 1 год = 5 лет = 3 года = 2 года = 6 лет = 4 года = 1 год = 3 года.

Как такой график должен выглядеть.



В моем варианте сохраняется масштабность, подписаны те точки, где есть информация, кривая начинается 1991 годом.

Вот еще один график Meduza.



С промежутками здесь все окей, они равны. Но почему-то кривая графика следует за 2015 год. И следующая точка по логике должна быть уже в 2020 году. Вопрос: как Meduza умеет предсказывать будущее? Не понятно.

Для графиков по динамике важно показывать четкие даты. Определяйте точку старта и точку конца. Точка конца - конец исследуемого периода или сегодняшний день для данных в режиме реального времени. Чтобы корректно визуализировать прогноз, используйте отдельные цвета, пунктиры, сноски и тому подобное.

Также на графике странно построена вертикальная шкала по числовому распределению. Как правило, она строится в сотнях, по пятьсот или в тысячах. Здесь один шаг - 750. В принципе, по такой схеме можно было брать и 756, чтобы уже мастерски поиздеваться над людьми.

Вот так должен выглядеть этот график.



3. Ложное соотношение долей.


Яркий пример графиков, которые не строятся, а рисуются. Кажется, здесь не использовали таблицу с данными, на основе которой специальная программа строит логическую визуализацию. Это вариант с Adobe Illustrator или иного графического редактора. Не скажу, что пользоваться графическими инструментами запрещается. В этом случае просто нужно четко понимать соотношение цифр и долей. Ведь 3% никак не могут занимать часть превышающую 6,4%. Хотя, судя по этому изображению, бывает всякое.


Поэтому когда строите круговые графики или донаты, следуйте от больших значений к меньшим. Так вы систематизируете информацию, которую затем легко воспринимать. Сначала крупные доли, дальше уменьшайте их по кругу.

Предлагаю вот так.



Следующий график, как и предыдущий донат, я нашел в видео ресурса "Известия". Наверное, в издании специально ссылаются на "Деловая Россия", потому что видели беду с картинкой.



Если провести линию и посмотреть, как соотносятся между собой числа 9, 21 и 80, видно - график построен неправильно. Здесь у меня нет четкого понимания, это сознательная манипуляция или досадная ошибка.



Выводы

1. Первый случай с нулевой шкалой - простой и распространенный метод сознательной манипуляции данными. Ежегодно подобные инфографики встречаются в известных кампаниях. Недавний и громкий кейс - предвыборная кампания Дональда Трампа. Посмотрите на те графики, которые он постился в Twitter, в статье The Washington Post. В некоторых случаях информация искажалась даже не в его пользу. Интересно, правда?

2. Графики с ошибочно отраженной динамикой скорее создают из-за недостатка знаний. Ведь они не демонстрируют преимущества, которые следует гиперболизировать. Это просто некорректная информация. Все равно, что путать местами буквы в словах - смысл понятен, но написано с ошибкой. Когда у вас есть данные за неравные промежутки времени, лучше стройте не линию, а колонки. Тогда они могут стоять рядом. Это, кстати, общепринятый вариант.

3. Ложное соотношение долей в донатах объясняется и манипуляцией, и пренебрежением правилами построения. Главное, что важно помнить - визуализация должна отражать, а не "делать" данные. Она призвана транслировать их, а не искажать.