W poprzednich wpisach z serii „60 wykresów w Tableau” opisywałem sposoby wizualizacji danych kategorialnych, czasowych oraz części całości. Przypomnijmy – dla danych kategorialnych polecanym rozwiązaniem były bar charty, dla czasowych – line charty. Dla części całości opcji było więcej w zależności od rodzaju danych. Jeśli chodzi o relacje, znów wracamy do jednej pożądanej opcji – scatterplot.
Scatterplot jako wizualizacja zależności zmiennych
Scatterplot, czyli wykres punktowy, idealnie nadaje się do pokazania zależności dwóch zmiennych wg wybranego poziomu szczegółowości. Wykres ten na dwóch osiach pokazuje dwie wybrane zmienne, a punkt danych reprezentuje wybrany poziom szczegółowości. Przykładowo wykres poniżej pokazuje zależność wartości sprzedaży (Sales) i zysku (Profit). Punkty danych reprezentują kategorie produktów:
Na powyższym wykresie już na pierwszy rzut oka widać zależność – im większa wartość sprzedaży, tym większy zysk. Temu właśnie służy scatterplot – możemy szybko wizualnie ocenić występowanie lub brak korelacji. Kolejną zaletą jest identyfikacja wartości odstających – outliers. W tym przypadku jest to kategoria Tables – jako jedyna mająca ujemny zysk. Jest to wartość ekstremalnie odstająca, a oprócz niej są również outlierzy pozytywni oraz negatywni. Żeby lepiej to zobrazować, wystarczy dodać linię trendu do naszego wykresu:
Linia trendu potwierdza naszą obserwację o zależności liniowej sprzedaży i zysku. Oprócz ewidentnie odstającej wartości Tables, mamy również kategorie Machines, Chairs, Storage i Phones które położone są poniżej linii trendu – czyli są mniej dochodowe. Z drugiej strony mamy kategorie takie jak Art, Acciessories czy Appliances, których zyskowność jest większa niż wynika to z linii trendu.
Dodajemy kolejne wymiary analizy do Scatterplota
Scatterplot możemy rozbudować o kolejne wymiary danych, zwiększając ilość informacji przekazywanych przez wykres. Zacznijmy od koloru – dodamy kolor zbiorczej kategorii produktu zgodnie z legendą:
Dzięki temu widzimy gdzie sub-kategorie z danej kategorii znajdują się na naszym wykresie:
Ostatnim elementem, który możemy wykorzystać do pokazania kolejnego wymiaru danych, jest rozmiar punktów danych. Dodamy pole ilość (quanity) pokazujące rozmiar kategorii:
To nie wszystko jeśli chodzi o możliwości analityczne jakie daje scatterplot. Wykorzystując linie referencyjne możemy dodać do wykresu linie pokazujące średnie wartości sprzedaży i zysku:
Co nam to daje? Uzyskaliśmy podział punktów danych (w tym przypadku kategorii) na cztery obszary. Dzięki temu w łatwy sposób identyfikujemy nasze mocne kategorie, oraz te do optymalizacji:
Więcej kategorii i zmiennych
Scatterplot pokazuje na swoich osiach zmienne ciągłe. Możemy natomiast wykorzystać punkty danych do pokazania zależności zmiennych kategorialnych. Osiągamy tym samym efekt zbliżony do highlight table lub heat mapy, natomiast zyskujemy dodatkowy wymiar danych – rozmiar. Wizualizacja tego typu nazywana jest correlation matrix:
Patrząc na powyższy wykres łatwo zidentyfikować główne rynki (Francja, Niemcy, UK) oraz kategorie (Phones, Copiers, Bookcases). Kolor w tym przypadku pokazuje zysk – widać tym samym nierentowne zależności rynek-kategoria. Przykładowo Holandia czy Szwecja większość kategorii ma nierentowne. Tym samym wskazujemy obszary do optymalizacji. Correlaction matrix traci nieco na funkcjonalności w porównaniu do scatterplot – możemy wizualizować dwa wymiary ciągłe (rozmiar i kolor) zamiast czterech w scatterplocie (oś x, oś y, rozmiar i kolor). Natomiast zyskujemy drugi wymiar kategorialny, co również ma swoje zalety.
Inną opcją jest wykorzystanie wykresu zwanego parallel coordinates, który pokazuje zmiany zmiennych ciągłych dla różnych wymiarów. Wykres jest użyteczny w sytuacji, kiedy chcemy pokazać zależność więcej niż dwóch zmiennych jak na scatterplotcie. Ograniczeniem jest wspólna oś, czyli wymiary powinny mieć zbliżony rząd wielkości. Inaczej wykres stanie się nieczytelny.
Jakie są inne opcje?
Jest dostępny szereg innych rozwiązań wizualnych, natomiast żaden z nich nie jest na tyle prosty w przekazywaniu informacji co scatterplot. Przykładem jest radar chart – mamy jedną zmienną ciągłą i kilka kategorii:
Innym przykładem jest Chord diagram – pokazujący interakcje pomiędzy poszczególnymi kategoriami:
Wykresy te nie są proste w odbiorze i przygotowaniu, dlatego ich zastosowanie nie jest szerokie. Osobnym zagadnieniem pokazującym relacją są również wykresy/schematy organizacyjne, pokazujące hierarchię w organizacji. Na podobnej zasadzie funkcjonują wykresy sieciowe (network diagrams). Popularność zyskują również dendrogramy (wykresy pokazujące przykładowo drzewa decyzyjne czy hierarchie).
Relacje = Scatterplot
Przystępując do wizualizacji relacji pomiędzy danymi warto zawsze zacząć od scatterplota. Jest to wykres łatwy w przygotowaniu, niezwykle elastyczny i użyteczny. Do tego jest również bardzo łatwy w odbiorze dla użytkownika końcowego. Dokładając do tego możliwości rozbudowy (dodanie rozmiaru, koloru, linii trendu, linii referencyjnych) uzyskujemy naprawdę potężne narzędzie do wizualizacji danych. Dopiero w przypadku specyficznych zastosowań (jak przykładowo wizualizacji hierarchii) należy sięgnąć po bardziej zaawansowane typy wizualizacji relacji.
Mateusz Karmalski, Tableau Author