Czym jest Tableau Prep i skąd się wziął?
Program, o którym zwykle myślimy jako o Tableau Prep to Tableau Prep Builder. Jest narzędziem służącym do przygotowania danych. Z jego pomocą dane można łączyć, czyścić, agregować, obracać, a nawet obrabiać funkcjami w kodzie R i Pythona. Łańcuch kolejnych czynności modyfikujących nasze dane nazywamy tu flow. Do zarządzania na serwerze flowami z Tableau Prep Builder służy Tableau Prep Conductor. Dziś skupimy się na Tableau Prep Builder.
Skąd się wziął? Wszyscy wiemy, że czyszczenie i przygotowywanie danych w Tableau jest zadaniem niewdzięcznym, a często mało efektywnym. A Tableau Desktop lubi dane uporządkowane i ograniczone do niezbędnego minimum. Lubi, bo dobrze przygotowane dane poprawiają wydajność i szybkość pracy. Przez długi czas przygotowywanie źródła oznaczało więc wielokrotne przełączanie się pomiędzy Tableau i narzędziami pomocniczymi. Potrzebny mógł być kolejny fragment zapytania SQL albo modyfikacja w Excel. Odpowiedzią na to był Project Maestro, który następnie stał się Tableau Prep Builderem.
Jak nauczyć się Tableau Prep i czy to trudne?
Założeniem Tableau Prep było to, że ma być prosty i intuicyjny. I taki jest. Niemniej od czasu, gdy udało mi się wysłuchać wszystkich filmów instruktażowych do niego w trakcie zmiany opon, minęło trochę czasu. Prep rozrósł się i zyskał mnóstwo nowych ciekawych funkcjonalności. Wciąż jest jednak dużo mniej rozbudowany niż Tableau Desktop. Gdy piszę ten tekst instrukcja do Tableau Desktop liczy 3249 stron, a do Tableau Prep – 533. Te 500 stron obejmuje też Tableau Prep Conductor. To wiele mówi. Ucząc się można samemu poeksperymentować. Można też skorzystać ze szkolenia. Wówczas prowadzący oprócz wytłumaczenia podstaw, pokaże na konkretnych przykładach smaczki subtelności narzędzia. To dobry sposób na zmierzenie się z typowymi zadaniami. Wyzwania nietypowe i skomplikowane są dla chętnych co tydzień publikowane w ramach inicjatywy Preppin’ Data.
Kiedy Prep, a kiedy Desktop?
To pytanie zyskało na aktualności po pojawieniu się nowego modelu danych w Tableau 2020.2. I w Prepie, i Desktop możemy połączyć dane korzystając z unionów i joinów. Do wersji 2020.1 rozgraniczenie było proste. I tu, i tu uzyskiwaliśmy jedną tabelę płaską. Tylko wyłączenie z Tableau Desktop etapu łączenia danych w jedną tabelę poprawiało efektywność. Od wersji 2020.2 tabele źródłowe w Tableau Desktop mogą być przechowywane osobno. Definiuje się wówczas jedynie relacje między nimi. Określa się jedno, identyczne w obu tabelach pole, w oparciu o które Tableau automatycznie buduje joiny w momencie konstruowania wizualizacji. Więcej mniejszych tabeli oznacza wysyłanie przez Tableau zapytań do mniejszych zbiorów danych, i tylko takich, które mają związek z właśnie tworzonym wykresem. A to z kolei oznacza dużą poprawę efektywności. Po co w tej sytuacji Prep?
Odpowiedzi jest kilka. Po pierwsze relacje w Tableau nie dają się przenieść do odczytu na starsze wersje. To oznacza, że ich stosowanie wymaga konsekwentnego upgrade’u pełnego środowiska Tableau w firmie. A więc wielu z nas pozostanie jeszcze przez jakiś czas w starym świecie. Po drugie istnieje szereg sytuacji, gdzie nawet w Tableau 2020.2 i nowszych dane będą łączone do tabel płaskich. I tu także może się sprawdzić Tableau Prep. Wreszcie warto pamiętać, że łączenie tabel nie wyczerpuje możliwości Prepa.
Co wyróżnia Tableau Prep?
Siłą Prepa jest czyszczenie danych, agregowanie i przetwarzanie do postaci koniecznej do analizy. Te operacje w Tableau Desktop czasem są niemożliwe, a czasem bardzo kosztowne. Bardzo obciążają wydajność. Tu możemy m.in. poradzić sobie z wieloma wariantami zapisu nazw, utworzyć kolumny indeksów, przygotować specyficzne miary, usunąć duplikaty wierszy. Możemy edytować dane na poziomie każdej komórki, kolumny i wiersza. A do tego Prep jest przejrzysty i wybaczający. Na każdym etapie możemy podejrzeć wynik i w tabeli, i w Tableau Desktop. Na każdym etapie możemy się też cofnąć do wcześniejszego kroku i go skorygować.
Tableau Prep Conductor – czy to da się zautomatyzować?
Tak jak pisałam wcześniej do automatyzacji flowów Tableau Prep na serwerze można skorzystać z Tableau Prep Conductor. Jest to jednak narzędzie licencjonowane osobno od Tableau Desktop, czy Tableau Server i przez to dostępne głownie dla większych firm. Alternatywą jest połączenie flowów Prepa z harmonogramem zadań Windowsa. I to się sprawdza! Zamiast codziennie zasilać flow Prepa, można zająć się czym innym.
Nie wszyscy kochają Prepa…
To fakt. Jako, że jest to narzędzie relatywnie nowe i bardzo szybko rozwijające się, zdarzają się błędy. Jest cały szereg tricków na radzenie sobie z nimi, ale to zniechęca. Mimo wszystko warto. Dlaczego? Przykładowo Alteryx jest narzędziem bardziej dojrzałym i oferującym więcej możliwości. Ale też wielokrotnie droższym. Mnie przekonuje też fakt, że koledzy, którzy świetnie poruszają się w SQL, często wybierają do pracy Tableau Prepa. Bo jest prosty, klarowny i dość szybki. Do tego łatwy w sprawdzaniu.
A tricki? Jeśli przy pracy z Prepem zdarzy się, że okno podglądu kroku nagle zacznie dziwacznie wyglądać, warto zamknąć i otworzyć to okno ponownie. Zwykle to rozwiązuje problem.
Agata Mężyńska, Tableau Desktop Certified Professional