November 22, 2018
Чому погана аналітика гірша за її відсутність
Аналітика
Проте існує проблема спаплюження інформації у випадку її некоректного відображення. Це може бути з двох причин:
- свідома маніпуляція даними;
- помилковість через брак знань.
Хибну візуалізацію можна розподілити на групи за декількома проблемами. Розглянемо кожну з них.
1. Побудова не від “0”.
Журнал Time свого часу опублікував інфографіку, де порівнював марки автомобілів, що були продані за останні 10 років та досі на ходу. Очевидно, тут демонстрували перевагу в надійності Chevrolet.
Проте якби графік був побудований від нуля, то різниця між об’єктами сприймалася б інакше. Стовпчики на графіку виглядали б майже рівними. Подивіться самі.
Цей графік вже не настільки показовий. Різниця між автівками мізерна, хоча і присутня. Тому, на мою думку, це була свідома маніпуляція даними. Добре, що хоч показали 5%-ву шкалу, проінформувавши читачів, що це лише верхівка графіку. Однак люди зазвичай дивляться просто на стовпчики, “на око” їх і порівнюють. Тож це один із найстаріших та найвідоміших прикладів того, як маніпулюють даними у графіках “не від нуля”.Минуло 25 років. У 2017 році Google презентує нові смартфони Pixel 2 та Pixel 2 XL. Одна з переваг - суттєво краща камера, аніж у попередній моделі.
Та сама історія. Дивимось на графік, здається, що майже наполовину якість покращилась. А тепер будуємо графік, починаючи з нуля.
Різниця справді є, але вона не демонструє таку круту й очевидну конкурентну перевагу, як намагалися показати. Висновок: свідома маніпуляція даними.
2. Нерівномірність інтервалів у динаміці.
Коли ви будуєте лінійний графік, то візуалізувати дати треба через однаковий проміжок часу. Наприклад: якщо починаєте з 1995 року, а наступний - 2000 рік, то логічно далі зображати 2005 рік і т.д. Якщо ви маєте дані, що нерівномірно розподіляються за датами, то це необхідно правильно візуалізувати.Подивимось на графік російського видання Meduza, що зображає зростання частки православного населення в Росії.
Динаміку візуалізовано з 1991 по 2016 роки. Перше - початкова точка графіку стартує з невідомого періоду. Друге - однакові за розміром інтервали містять різну кількість років. Інтервал між 1991 і 1992 роками такий самий, як між 1992 та 1997 і так далі. За логікою Meduza:1 рік = 5 років = 3 роки = 2 роки = 6 років = 4 роки = 1 рік = 3 роки.Як такий графік має виглядати.
У моєму варіанті зберігається масштабність, підписані ті точки, де є інформація, крива починається саме 1991 роком.Ось ще один графік від Meduza.
З проміжками тут все окей, вони рівні. Але чомусь крива графіку прямує далі за 2015 рік. І наступна точка за логікою має бути вже 2020 року. Питання: як Meduza вміє передбачати майбутнє? Не зрозуміло.Важливо завжди мати чіткі дати, що візуалізуються, для графіків по динаміці. Визначайте точку старту і точку кінця. Точка кінця - це кінець досліджуваного періоду або сьогоднішній день для даних у режимі реального часу. Для того, аби все ж таки коректно показати прогноз, використовуйте окремі кольори, пунктири, виноски тощо.
Також на цьому графіку дивно побудована вертикальна шкала за числовим розподілом. Як правило, вона будується в сотнях, по п’ятсот або в тисячах. Тут один крок - 750. В принципі, за такою схемою можна було брати і 756, аби вже майстерно познущатись з людей.
Ось так мав би виглядати цей графік.
3. Хибне співвідношення часток.
Яскравий приклад графіків, котрі не будуються, а малюються. Здається, що тут не використовували таблицю з даними, на основі якої спеціальна програма будує логічну візуалізацію. Це варіант з Adobe Illustrator або іншого графічного редактора. Не скажу, що користуватись графічними інструментами забороняється. В цьому випадку просто потрібно чітко розуміти співвідношення чисел та часток. Адже 3% ніяк не можуть займати частину більшу за 6,4%. Хоча, судячи з цього зображення, буває всяке.
Тож коли ви будуєте кругові графіки, так звані, донати, слідуйте від найбільших значень до найменших. Так ви систематизуєте інформацію, котру потім легко сприймати. Спочатку більші частки, далі зменшуйте їх по колу.Я пропоную таку версію.
Наступний графік, як і попередній донат, я знайшов у відео ресурсу “Известия”. Напевно, вони спеціально посилаються на “Деловая Россия”, бо бачили халепу з картинкою.
Якщо провести лінію і подивитись, як співвідносяться між собою числа 9, 21 та 80, видно - графік побудовано також не правильно. Тут я не маю чіткого розуміння, чи це була свідома маніпуляція, чи прикра помилка.
Висновки
- Перший випадок з нульовою шкалою - найпростіший та найбільш розповсюджений метод свідомої маніпуляції даними. Щороку подібні інфографіки можна зустріти у відомих кампаніях. Один із недавніх та гучних кейсів - передвиборча кампанія Дональда Трампа. Подивіться на ті графіки, що він постив у Twitter, у статті The Washington Post. У деяких випадках інформація була викривлена навіть не на його користь. Цікаво, правда?
- Графіки з помилково відображеною динамікою скоріше створюють через брак знань. Адже вони не демонструють переваги, які слід гіперболізувати. Це просто некоректна інформація. Все одно, що плутати місцями букви у словах - суть зрозуміла, але написано з помилкою. Коли у вас є дані за нерівні проміжки часу, краще будуйте не лінію, а стовпчики. Тоді вони можуть стояти поруч. Це, до речі, загальноприйнятий варіант.
- Хибне співвідношення часток на донатах може пояснюватись і маніпуляцію, і нехтуванням правилами побудови. Головне, що слід пам’ятати - візуалізація має відображати, а не “робити” дані. Вона покликана транслювати їх, а не викривлювати.