Czym jest statystyka? Oczywiście istnieje szereg naukowych definicji, natomiast do mnie przemawia aspekt praktyczny – statystyka umożliwia podsumowanie dużego zbioru danych za pomocą kilku miar. Na tej podstawie możemy lepiej zrozumieć dane oraz wydobyć z nich ukrytą, na pozór niedostępną wartość. Analizując dane często spotykamy się z nadmiarem informacji, szumem informacyjnym. Statystyka pozwala skrócić przekaz i podsumować go w kilku prostych, zrozumiałych dla ogółu miarach.
Tableau jako narzędzie dedykowane wizualnej analizie danych nie jest programem stricte statystycznym. Jednak ciężko jest analizować dane bez jakiegokolwiek używania miar takich jak średnia, mediana, dlatego Tableau zawiera w sobie szereg funkcji ułatwiających to zadanie. Poza tym Tableau umożliwia rozbudowę wykresów o szereg dodatkowych elementów wizualnych obejmujących różnego rodzaju miary, wspomagając lepsze zrozumienie prezentowanych danych.
W poniższym wpisie przybliżę podstawowe miary statystyczne dostępne w Tableau, wraz z praktycznym ich zastosowaniem.
Statystyka- podstawowe miary
Jedną z najbardziej podstawowych miar jest średnia – inaczej mówiąc wartość oczekiwana – naukowo mówiąc jest to wartość spodziewana określonego zjawiska. Załóżmy, że analizujemy pensje pracowników w pewnej firmie, które prezentują się następująco:
Tableau domyślnie ustawia agregację miary na sumę – zmieniamy to na średnią, co póki co nie ma wpływu na nasz wykres:
Różnicę zobaczymy dodając total – mamy tym samym wartość średnią w podsumowaniu:
Dodanie totalu nie zawsze będzie najlepszym rozwiązaniem – zwłaszcza, jeżeli zależy nam na miejscu na dashboardzie. Dodatkowo ciężko jest porównywać słupki położone daleko od siebie. Dlatego Tablaeu ma również bardzo użyteczną funkcjonalność – linie referencyjne. Linie te dodajemy z panelu Analytics i następnie wybieramy Average line. Dzięki temu przez cały obszar wykresu mamy linię z wartością średnią. Dużo łatwiej jest teraz porównywać wartości ze zbioru danych do wartości średniej:
Oprócz średniej w podstawowych miarach statystycznych możemy wyróżnić również minimum i maksimum – pokazują tym samym rozpiętość danych. Wizualnie w Tableau możemy użyć do funkcjonalności Reference Band, wybierając from Minimum oraz To Maximum:
Statystyka- Mediana, kwantyle i percentyle
Czasami wartość średnia jest niewystarczająca, albo inaczej – jest zbyt dużym uproszczeniem. Zamiast dostarczać nam skondensowanej informacji, pokazuje nam informację nie do końca adekwatną do rzeczywistości. Żeby to lepiej zobrazować, dodajmy do naszych danych bardzo wysoką pensję pracownika X i wyznaczmy ponownie wartość średnią:
Wartość średnia podskoczyła nam z wartości 1590 do 3264, czyli niemal dwukrotnie. Oczywiście statystycznie jest to poprawne, natomiast można wyciągnąć błędne wnioski o poziomie zarobków. W końcu 10 z 11 pracowników zarabia mniej niż średnia, czyli zarobki na poziomie średniej dla szeregowego pracownika są nieosiągalne. Uwydatnia się tutaj podstawowa wada średniej – podatność na wartości odstające. Z pomocą przychodzi mediana, czyli wartość środkowa:
Mediana w tym przypadku na poziomie 1500 jest dużo bliżej większości punktów danych i lepiej oddaje rzeczywistość. Mediana zwraca wartość środkową w zbiorze – od której połowa naszych danych jest mniejsza a połowa większa. Jeżeli zbiór jest parzysty, to mediana zwraca średnią dwóch wartości środkowych. Poniżej graficzna interpretacja mediany na uszeregowanym rosnąco zbiorze:
Z pojęciem mediany wiąże się inna definicja ze świata statystyki – percentyl. Percentylem rzędu X określamy taki punkt, poniżej którego znajduje się X% obserwacji (danych). Mediana więc to nic innego jak 50-ty percentyl – 50% wartości jest poniżej mediany. W statystyce funkcjonują oprócz mediany dwa istotne kwartyle: pierwszy (dolny, 25-ty – dla którego 25% obserwacji jest poniżej) oraz trzeci (górny, 75-ty – dla którego 75% obserwacji jest poniżej).
Graficznie w Tableau możemy umieścić medianę z kwartylami na wykresie wybierając Median with Quartiles z zakładki Analytics:
Linia wskazuje medianę, a zakres górny i dorny kwartyl. Odstęp pomiędzy kwartylem górnym a dolnym nazywany jest odstępem ćwiartkowym (międzykwartylowym) – który obejmuje 50% obserwacji. Im szerszy odstęp, tym bardziej rozproszone dane.
Kalkulacja podstawowych statystyk jako pola obliczeniowe
Tableau ma świetne funkcjonalności wizualne jeśli chodzi w pokazywanie statystyk opisujących rozkład danych. Możemy dodawać linie referencyjne z wartościami średnimi czy medianą, zakresy danych, odstępy ćwiartkowe. Jednak wizualny aspekt to jedno – często potrzebujemy wartości, które możemy później wykorzystać w kalkulacjach. Do tego celu służą funkcje statystyczne, które wykorzystamy do opisu naszego zbioru danych. Zacznijmy od podstaw – średnia. Możemy to zrobić na dwa sposoby – albo poprzez stworzenia nowego pola kalkulowanego albo poprzez dodanie pola bazowego i zmianę agregacji:
Efekt w obu podejściach jest taki sam:
Jaka jest wobec tego różnica? Przede wszystkim tworząc pole obliczeniowe nie musimy już potem pamiętać o zmianie agregacji, gdyż utworzona w ten sposób miara jest już agregatem. Tak stworzoną miarę możemy używać później w innych kalkulacjach, nie martwiąc się o to. Minusem jest konieczność tworzenia nowego pola, a jeśli mamy więcej miar do stworzenia może być to czasochłonne.
Stwórzmy kolejne miary:
- minimum: MIN([Pensja])
- maksimum: MAX([Pensja])
- medianą: MEDIAN([Pensja])
- kwartyl dolny: PERCENTILE([Pensja],0.25) – przy kwartylach używamy funkcji PERCENTILE oraz podajemy rząd (między 0 a 1)
- kwartyl górny: PERCENTILE([Pensja],0.75)
- rozstęp ćwiartkowy: [Górny kwartyl]-[Dolny kwartyl]
Tym sposobem mamy podsumowanie podstawowych miar statystycznych naszego zbioru danych:
Podstawowe statystyki są istotne – warto od nich zacząć
Podchodząc do analizy jakiegokolwiek zbioru danych warto przejrzeć podstawowe statystyki, aby wiedzieć z czym mamy do czynienia. Pozwala to wykonać pierwszy krok w eksploracji danych, który pozwoli ukierunkować nasze działania. Przykładowo – jeżeli wartość średnia znacznie różni się od mediany może wskazywać na występowanie znacznych wartości odstających. Pola minimum i maksimum pomogą to zobaczyć. Kwartyle wskażą zakresy, w których znajdują się nasze dane. Mając taką podstawową wiedzę, możemy przystąpić do wizualnej analizy danych wyposażeni już we wstępny pogląd na temat tego z czym się mierzymy.
Mateusz Karmalski, Tableau Author