Oczywiście, że się da, wystarczy tylko nieco dociekliwości. Dla odważnych – ogromne możliwości.
Czasem sam opis zjawiska nie wystarczy. Chcemy nie tylko móc mówić, jak sprawy mają się dziś, ale też przewidywać przyszłość. Jak powiedział Wayne Gretzky „Dobry hokeista jest tam, gdzie jest krążek. Wieki hokeista jest tam, gdzie krążek za chwilę się pojawi.” Coś w tym jest. Najwspanialsze nawet dane statystyczne będą mieć w sobie zawsze coś z lusterek wstecznych.
Kiedy więc chcemy spojrzeć przed siebie do wyboru mamy szklane kule albo modelowanie i analizy scenariuszowe… Póki co konektorów do szklanych kul w Tableau brak. Popatrzmy więc, co możemy w kwestii modelowania ekonometrycznego i szacowania zależności oferują wbudowane opcje Tableau. Czy rzeczywiście w tableau nie ma regresji? Nie występuje nawet regresja liniowa?
Regresja- na początku było menu Analytics
Tableau ma to do siebie, że wiele skomplikowanych metod podaje na tacy. I to tak, by wyglądały na lekkie łatwe i przyjemne. Nie inaczej jest z dobieraniem modeli do danych. To co na kartce liczy się pracowicie przez 20 minut, załatwiamy przeciągając pigułkę. Jeden ruch i pojawia się linia trendu. Może być liniowa i zbudowana na bazie regresji liniowej. Może też być nieliniowa. Tak czy tak, będzie jej towarzyszyć wzór krzywej, wartość p-value i R-kwadrat. Dla chętnych w opisie dostępne są jeszcze stopnie swobody i kilka innych współczynników.
A zatem sięgamy do menu Analytics. Ze środkowej części „model” wybieramy m.in. linie trendu. Do wyboru jest ich kilka, opartych o różne rodzaje regresji: liniową, logarytmiczną, wykładniczą, potęgową i wielomianową. Warto za każdym razem zerknąć na wskaźniki jakości dopasowania. R-kwadrat powinno być jak najbliższe 1. P-value natomiast powinno być na poziomie jak najniższym, np. poniżej 5%.
Jak widać w naszym przykładzie, gdzie zmienną objaśnianą był zysk w Sample Superstore, a objaśniającą sprzedaż, najlepiej sprawdziła się potęgowa linia trendu. Jak zmieniamy rodzaje linii trendu? Klikając na nie i wybierając opcję Edit. Opcja Describe da dostęp do dokładniejszych informacji o modelu.
R jak rzeczywistość i uścisk Pythona
W rzeczywistości do wytłumaczenia zmienności zysków zdecydowanie nie wystarczy zmienność sprzedaży. Mogą na nią wpływać przecież choćby polityka udzielania rabatów i zmiany kosztów stałych. Rzeczywistość wyjątkowo rzadko daje się objaśnić jedną tylko zmienną. A zdarza się przecież też regresja logistyczna i inne zaawansowane metody modelowania. Na takie sytuacje w Tableau od wersji 8.2 istnieje możliwość podłączenia się do R, a od wersji 10.1 do Pythona, a od 10.4 do Matlaba.
Dla tych, którzy znają te narzędzia podłączenie ich to kwadrans zabawy. Potem w każdym przypadku postępujemy tak samo. Do wyboru mamy 4 funkcje, zależne od tego jakiego typu dane mamy uzyskać po zastosowaniu skryptu. Dla wartości logicznych mamy funkcję SCRIPT_BOOL. Dla liczb całkowitych, tekstów i liczb rzeczywistych odpowiednio: SCRIPT_INT, SCRIPT_STR i SCRIPT_REAL. Składnia także bez względu na wybrane narzędzie jest stała. Wystarczy pamiętać, by wewnątrz funkcji umieścić w cudzysłowach lub w ‘ciapkach’ skrypt, po przecinku argumenty i gotowe! Tu argumentami są zmienna objaśniana – zysk i objaśniające – sprzedaż, ilość i rabaty.
Tableau Performance: cienie i blaski skryptów
Integracja Tableau z R, Pythonem i Matlabem daje niemal nieograniczone możliwości analityczne. Od analiz ekonomicznych po spektrografię masową. Jest tylko jedno „ale”. Z integracji warto korzystać tylko wówczas, gdy zawiodą wbudowane funkcjonalności. Przekazanie danych do przetwarzania poza Tableau, a następnie ich wtórna obróbka w tableau mogą położyć się cieniem na wydajności dashboardów. A zatem regresja logistyczna – zdecydowanie tak. ETL zdecydowanie nie.
Agata Mężyńska, Tableau Desktop Certified Professional