Business Intelligence, czyli inaczej analityka biznesowa, stanowi połączenie narzędzi stworzonych w celu ułatwienia pracy z danymi oraz wiedzy analityków – ekspertów. Celem wdrożeń narzędzi BI jest poprawa wyników firmy oraz ułatwienie sobie pracy z danymi, żeby zobaczyć więcej. Dzięki analizie danych możemy szybciej i lepiej podejmować decyzje biznesowe. Umiejętne analizowanie danych nie tylko może pomóc poprawić finanse firmy, ale może również wyeliminować potencjalne zagrożenia, które mogą wpływać negatywnie na ten wyniki. Zanim będziemy mogli wdrożyć narzędzia do wizualnej analizy danych i eksplorować nasze dane, musimy skupić się na działaniach poprzedzających. Czym jest proces ETL i ELT?
Na czym polega proces ETL?
Skrót ETL z języka angielskiego to połączenie trzech słów, które składają się na cały proces: extraction, transformation i loading.
Źródło: https://newdatalabs.com/porownanie-dodatkow-etl-do-self-service-bi-tableau-i-powerbi-czesc-i/
Pierwszy etap – extraction – to pozyskiwanie danych z systemów (np. CRM, ERP, SAP), który determinuje bazowe źródła dla hurtowni danych (data warehouse). Następuje łączenie się z odpowiednim narzędziem oraz pobranie danych i przeniesienie ich do systemu, w którym odbędzie się kolejny etap procesu.
Transformacja, czyli przygotowanie w odpowiedni sposób danych. Na tym etapie dane zostają czyszczone. Dane muszą mieć odpowiednią formę, wspólną strukturę, dlatego należy je przekształcić. To najtrudniejszy i jednocześnie najbardziej kreatywny etap całego procesu. Wymaga wiele pracy oraz bardzo często nieoczywistych rozwiązań. Przy dużym wolumenie danych ten proces może być skomplikowany dla niedoświadczonego developera.
Ostatni etap polega na załadowaniu danych do tabel. Tabele są miejscem docelowym składowania danych, z którego będą odczytywane. Tabele to nic innego jak hurtownie danych, czy bazy danych, które są repozytorium danych dla aplikacji raportujących.
Czy BI może istnieć bez ETL?
Teoretycznie tak, pod warunkiem, że posiadane przed nas dane są już usystematyzowane, oczyszczone i ogólnie mówiąc, gotowe do analizy. Często zdarza się to w przypadkach danych księgowych, gdzie usystematyzowanie danych wymagane jest przez różne przepisy i dzięki temu zachowany zostaje porządek, a danych nie trzeba już transformować.
Przyjmujemy jednak, że firma posiada wiele danych, które aby w prawidłowy sposób analizować, musi najpierw usystematyzować. Ten przypadek jest znacznie częstszy. Czyli z praktycznego punktu widzenia procesy ETL (bądź ELT, czyli w tym przypadku etap ładowania poprzedza transformację) są najczęściej niezbędnym ogniwem wizualnej analizy danych.
Dane, które mają nam w przyszłości posłużyć jako źródło poprawy wyników naszej pracy, trafiają do hurtowni danych z różnych systemów. Każdy dział w firmie ma swoje bazy danych. W obrębie jednej firmy te same dane mogą się różnić sposobem zapisu. Weźmy za przykład dane teleadresowe. W jednym miejscu zapis może być kompletnie różny. Dla nas mogą to być te same dane, jednak system wyodrębni ją na różne sposoby zapisu, co będzie skutkowało duplikacjami. Dlatego tak ważne jest, aby te dane zostały w odpowiedni sposób zgromadzone i zagregowane, a następnie transformowane do odpowiedniego zapisu. Najważniejsze jest, by dane, które mają być analizowane i przyniosły nam korzyść były, dobrej jakości. Dlatego BI nie istnieje bez ETL.
Jak wybrać odpowiednie narzędzie ETL?
Na rynku istnieje obecnie wiele narzędzi, które kompleksowo zajmują się procesami ETL. Skupimy się na tych wiodących i tym samym najczęściej wybieranych. Na końcu opiszemy narzędzie, które służy do procesów ELT, czyli jak wyżej wspomnieliśmy, proces ładowania poprzedza proces transformacji danych.
Jako pierwszy przykład podamy narzędzie, które nie wymaga od nas umiejętności kodowania. Intuicyjny i graficzny interfejs, posiadający wiele funkcji pozwoli nam na grupowanie danych, ich edycję oraz ułatwi proces oczyszczania. Mowa o Tableau Prep. Każdy krok przedstawiony jest w sposób graficzny, co dodatkowo pomaga wizualizować nam cały proces. Jest to idealne uzupełnienie narzędzia BI – Tableau, które również nie wymaga od nas znajomości języka programowania.
Jeżeli znamy język Python, powinniśmy zwrócić uwagę na Apache Airflow. Narzędzie zbiera w jednym miejscu cyklicznie uruchamiane zadania w postaci workflow/pipeline. Bez skomplikowanych konfiguracji można wykorzystywać narzędzie do planowania i monitorowania przepływów pracy.
Duża część użytkowników wykorzystuje narzędzia i dodatki z platformy Microsoft. Power Query, to można powiedzieć, rozbudowany Excel dla zaawansowanych użytkowników. Automatyzacja zapytań odbywa się bez użycia VBA, czyli języka oprogramowania powstałego na bazie Visual Basic, co pozwala na automatyczne odświeżanie danych.
Czym różni się proces ELT?
Ostatnio coraz częściej słyszymy o podejściu ELT (ang. extract – load – transform). Kiedyś to podejście było bardzo często niemożliwe ze względów technicznych lub było znacznie droższe we wdrożeniu, niżeli tradycyjne ETL. W tradycyjnym podejściu może się zdarzyć, że na etapie procesu transformacji możemy utracić część danych, przez co nie wszystkie zostaną załadowane. Dzięki rozwinięciu technologii chmurowych możemy przechowywać dane taniej, co przekłada się na dostępność narzędzi ELT. Nasze dane są najpierw ładowane, dzięki czemu nie tracimy cennych informacji, a dopiero w następnym kroku przekształcane.
Narzędzie ETL, które polecamy uwadze to Fivetran. Nie wymaga specjalistycznych zespołów IT, jest bardzo intuicyjny i łatwy we wdrożeniu. Posiada prosty przepływ pracy, zapewnia dostęp do wszystkich danych a jego konfiguracja jest szybka i prosta. Wystarczy, że uwierzytelnimy hurtownię danych oraz źródła, a Fivetran resztę procesu wykona sam.
Przygotowanie danych ETL.
Przygotowanie danych, które powinno poprzedzać wdrożenie narzędzi Business Intelligence, może się wiązać z różnymi problemami. Dane mogą być zdeduplikowane (np. literówki w zapisie), mogą pojawić się nieścisłości w mapowaniu, dane mogą się scalać i być nakładane na siebie z różnych systemów. Często możemy nie widzieć ewidencji historii zmian, co utrudni i wydłuży nam cały proces. Jednak nie tylko czas pracy będzie tutaj jedynym problemem, a również koszty, jakie może spowodować błąd, z którym nie będziemy mogli sobie sami poradzić. Warto jest skorzystać z usług, jakie oferują nam firmy zajmujące się pracą z danymi. Jeżeli przygotowujesz się również do wdrożenia BI warto znaleźć firmę, która kompleksowo podejdzie do tematu i zaoferuje odpowiednie narzędzia ETL/ELT oraz BI. Jeżeli jesteście zainteresowani jakie jeszcze możliwości możecie zyskać dzięki ETL/ ELT skontaktujcie się z NewDataLabS .