W poprzednim wpisie omówiliśmy Analytics Pane w Tableau – gdzie go znajdziemy, jakie ma funkcje i zastosowanie. Szczegółowo przeszliśmy przez linie referencyjne, zakresy wartości, dystrybucję danych oraz wykresy pudełkowe (box ploty). W tym wpisie omówimy pozostałe elementy: totale, linie trendu, prognozy oraz grupowanie. Są również bardzo istotne w rozbudowie naszych wizualizacji o dodatkowe aspekty, wspomagające przekaz informacji. Podobnie jak w poprzednim przypadku, musimy jednak pamiętać o użyteczności i czytelności naszych wykresów zanim użyjemy tych dodatkowych elementów.
Dodajemy Totale poprzez Analytics Pane
Totale, czyli sumy, są niezwykle użyteczne w Tableau zwłaszcza przy wizualizacji danych za pomocą tabel. Standardowo Tableau rozróżnia trzy podstawowe typy tabel, które są dostępne w menu Show me. Są to text table, heat map oraz highlight table:

Text table jest po prostu tabelą tak jak w każdym innym programie jak chociażby excel, heat map używa rozmiaru kształtu to rozróżnienia elementów, a highlight table – koloru. Z tych trzech najczęściej najlepszym rozwiązanie jest właśnie highlight table – zawiera z jednej strony szczegółowe wartości (jak text table) a z drugiej element wizualnego wyróżnienia danych (jak heat map – ale zamiast wielkości wykorzystuje kolor). Kolor ma tę przewagę nad wielkością, że łatwiej jest wyróżnić również elementy negatywne (ciężko jest pokazać ujemną wielkość elementu).
Aby uzupełnić tabelę o wszystkie niezbędne informacje często potrzebne są totale, które domyślnie nie są dodawane do tabeli. Dodać możemy je właśnie z analytics pane. Przeciągają element Total na tabelę mamy do wyboru: row grand totals, column grand totals oraz subtotals. Pierwsze dwie opcje dodają nam sumy dla odpowiednio wierszy lub kolumn, a ostatnia opcja – dodaje subtotal dla każdego panelu (pane):


Oczywiście możemy dodać naraz obie opcje, ale pamiętajmy że wtedy tabela staje coraz mniej czytelna. Wszystko zależy więc od ilości danych w tabeli i jej zastosowaniu – czasem istotne są sumy częściowe (subtotals), a czasem sumy końcowe (grand totals):

Warto również dodać, że edycja totali odbywa się z menu Analysis -> Totals. Możemy tam zarówno sterować widocznością totali, jak i również zmienić ich położenie i sposób agregacji:

Linie trendu
Totale są elementami bardzo użytecznymi w kontekście wizualizacji w postaci tabel. Linie trendu z kolei sprawdzą się przede wszystkim w przebiegach czasowych albo scatter plotach pokazujących zależność dwóch miar od siebie. Linie trendu dodajemy przeciągając ją na wykres z Analytics Pane. Mamy na wstępie do wyboru kilka opcji:

Po przeciągnięciu linia zostaje dodana do wykresu. Po najechaniu na nią widzimy tooltip ze szczegółami, gdzie znajdziemy przykładowo funkcję, wartość R2 oraz P-value świadczące o jakości dopasowania linii trendu do naszych danych:

Więcej wskaźników dotyczących linii trendu możemy podejrzeć klikając na linię i wybierając Describe Trend Line:

Jeżeli natomiast bardziej interesuje nas wykorzystany model wybieramy wtedy Describe Trend Model – mamy tam dostępną większą liczbę wskaźników jak SSE, MSE, standard error:

Edycja funkcjonalna linii trendu odbywa się poprzez kliknięcie na niej oraz wybranie Edit All Trend Lines. Możemy tam zmienić model – do wyboru mamy liniowy, logarytmiczny, wykładniczy, potęgowy i wielomianowy (z wyborem stopnia). Dodatkowo możemy wybrać dodatkowe wymiary do uwzględnienia w kalkulacji (w polu Factors – muszą być uwzględnione w wizualizacji). Na koniec mamy kilka opcji – wyświetlanie tooltipów, pokazywanie przedziałów ufności, dodanie linii per kolor, rekalkulacji linii przy wyborze albo podświetleniu danych oraz wymuszenie startu w punkcie 0:

Linie trendu oczywiście możemy dodatkowo formatować. Należy jednak pamiętać co jest naszym celem – przy dużej liczbie informacji linia trendu może być główną informacją, którą chcemy przekazać – wtedy warto ją wyróżnić. Przykładowo w przebiegach czasowych jest to dodatkowa informacja – wtedy warto ją nieco ukryć, a wyeksponować główne dane.
Prognoza wartości w czasie
Kolejnym elementem wspierającym analizę jest forecast. Tutaj już nie mamy wyboru – musimy mieć dane czasowe wraz z przynajmniej jedną miarą. Forecast dodajemy jak tak samo jak pozostałe elementy z Analytics Pane. Prognoza dodawana jest w pole kolor. Automatycznie zakres czasowy przedstawianych danych jest wydłużany:

Forecast możemy w pewnym stopniu modyfikować po kliknięciu i wybraniu Forecast Options. Możemy zmienić tu czas na jaki generowana jest prognoza, sposób agregacji czasowej danych, wybrać model (z bardzo ograniczonej listy – automatic, automatic without seasonality oraz custom) oraz wybrać przedziały ufności:

Po wygenerowaniu w ten sposób prognozy możemy ją podejrzeć w polu Describe. Znajdziemy tam podsumowanie wykorzystanych opcji oraz ocenę jakości modelu wraz ze wskaźniki jak MAPE (Mean Average Percentage Error). Warto tutaj zaznaczyć, że prognozy generowane w ten sposób nie zawsze są użyteczne. Po pierwsze, wybór modeli jest tutaj niewielki. Nie mamy też dostępu do wyniku tych estymacji poza wizualną reprezentacją na wykresie. Dlatego forecastu w tym ujęciu należy używać jako elementu dodatkowego wspierającego nasze wizualizacje, nie jako podstawę do podejmowania decyzji.
Grupowanie danych na wykresach
Ostatnim elementem analytics pane jest grupowanie, czyli opcja cluster. Odbywa się tak samo jak w innych przypadkach poprzez przeciągnięcie elementu na obszar wykresu. Pokazuje nam się proste okienko konfiguracji, gdzie wybieramy zmienne do uwzględnienia oraz liczbę klastrów (możemy zostawić Automatic – wtedy Tableau samo dobierze optymalną liczbę):

Grupowanie odbywa się za pomocą algorytmu K-średnich (K-means). Grupy są identyfikowane kolorem, gdzie umieszczane jest nowe pole Clusters. Co istotne, pole to możemy przenieść do naszych miar i wykorzystywać później w wizualizacjach czy kalkulacjach. Podsumowanie modelu możemy znaleźć zaś wybierając opcję Describe:

Panel analityczny to rozwinięcie możliwości Tableau
Analytics pane dodaje dodatkowe elementy analityczne z obszaru statystyki. Warto pamiętać, że są to głównie elementy wizualne, mające wspomagać proces efektywnego przekazywania informacji. Dostęp do szczegółów, wykorzystanie ich w kalkulacjach, opcje dostosowywania i poprawy jakości są ograniczone. Tableau nie jest programem statystycznym a jedynie wykorzystuje jego elementy głównie w aspekcie wizualnym. Tym samym staje się bardziej kompletnym narzędziem self-service BI.
Mateusz Karmalski Tableau Author