
Proces ETL – w dzisiejszych czasach każda rzecz, zostawia po sobie ślad w postaci danych. Na różnych etapach ten ślad może być zapisany w różny sposób, w różnych bazach danych.
By dokonać pełnej analizy, należy te dane które są nam potrzebne wyciągnąć ze źródła. To dopiero początek. Różne źródła, różne standardy, różne formaty. Dane muszą być spójne i jednorodne, by mogły dać jasny i prawdziwy przekaz. Każda firma chce dowiedzieć się ze swoich danych innych rzeczy.
Dlatego tak ważne jest wykorzystanie procesów ETL. Czyli przygotowanie tych danych zgodnie z potrzebami, wymogami i standardami każdego z klientów, indywidualnie. Jest to również etap, który przekształca dane. W taki sposób, aby były ze sobą zgodne i mogły zostać jako takie poddane analizie.
Proces ETL– czyli nasze wyciągnięte i przekształcone dane muszą zostać załadowane (wciągnięte, wgrane) do docelowej bazy danych. Będzie to podstawą naszej analizy.

Jakie możliwości dają nam narzędzia ETL?
- Gromadzenie danych z różnych źródeł (różne typy baz danych). Różne działy firmy (produkcja, logistyka, sprzedaż, księgowość) i tworzenie z nich magazynów danych
- Importowanie danych ze starych, nieużywanych już systemów analitycznych do nowych
- Integrowanie danych firmowych po przejęciach, fuzjach czy też nabyciu nowych firm – wszelkie działania związane z rozwojem i powiększaniem się firmy
- Łączenie naszych danych z bazami dostawców i partnerów biznesowych

Interfejs programu Tableau Prep
Proces ETL – ekstrakcja
Proces ekstrakcji może wydawać się najłatwiejszym z etapów przygotowania danych – ale tak nie jest. Na tym etapie natrafić można na wiele problemów związanych z dostępem do danych, ze zgodnością formatów danych źródłowych i docelowych. Dla danych łatwo dostępnych procedury te będą oczywiście proste. Natomiast, dla danych które nie są dostępne bezpośrednio, procedury będą bardziej skomplikowane.Gdy mamy do czynienia z danymi różnych typów, są one zazwyczaj zorganizowane w jakąś strukturę. Ważne jest by procedury związane z ekstrakcją wprowadzały już wstępną selekcję danych. Pobieranie danych zbędnych lub mało istotnych wpływa niekorzystnie na wydajność procesu ETL oraz tworzonej hurtowni danych.
Transformacja – Przekształcenie
W trakcie procesu przekształcania sprawdzamy czy rekordy z baz danych są poprawne, czy wymagają oczyszczenia, czy też są niezdatne do użycia. Pomaga to utrzymać porządek w tworzonej bazie i nie doprowadza do jej zaśmiecenia.
Najprostsze z procedur przekształcających dane. Odpowiadają za konwersję danych numerycznych na znakowe i odwrotnie, wypełnianie pustych wartości, zmiany formatów (liczby i daty), zmiany wartości np. przeliczanie jednostek. Procesy przekształcenia pozwalają nam też na ujednolicanie wartości oraz utrzymanie integralności przygotowywanych danych.
Zanim dane trafią do hurtowni danych muszą zostać oczyszczone, zintegrowane i odwzorowane, operacje które temu służą to m.in.:
- znajdywanie i w miarę możliwości poprawianie błędów literowych i słownikowych np. błąd w nazwie miasta, których pełną listę mamy w bazie,
- wyszukiwanie poprawności formatów np. poprawności numerów telefonów pod względem ilości cyfr,
- wykrywanie i usuwanie niezgodności między nazwą atrybutu a zawartością – często na przykład zdarza się, że w polu ‘Nazwa firmy’ jest imię i nazwisko klienta,
- normalizacja wartości – zamiana pustych ciągów znaków i spacji na NULL,
- uzupełnienie danych na podstawie zewnętrznych źródeł informacji np. uzupełnienie brakujących kodów pocztowych na podstawie adresów.
Ładowanie danych
Ładowanie to proces ostatni i najważniejszy w procesie ETL. Polega on na umieszczeniu danych które zostały uprzednio wydobyte i przekształcone w hurtowni danych.
Zastosowanie procesów ETL, a wpływ na biznes
Dane, a także ich dostępność i analiza w czasie rzeczywistym, stały się podstawą nowoczesnego biznesu. To w jaki sposób gromadzisz, przetwarzasz, łączysz, przechowujesz, wizualizujesz i analizujesz swoje dane z biznesowego punktu widzenia jest teraz ważniejsze niż kiedykolwiek wcześniej.
Niezależnie od tego, czy szukasz danych z baz danych, usług strumieniowych, plików lub innych źródeł, wybór właściwego zestawu narzędzi ma kluczowe znaczenie. Nowoczesne rozwiązanie ETL, zaprojektowane i zbudowane z myślą o dzisiejszym środowisku biznesowym. Dane są przetwarzane w czasie rzeczywistym, może być najlepszym rozwiązaniem dla Twojej firmy.
Wybór narzędzia ETL jest wbrew pozorom jednym z najważniejszym kroków jeśli chodzi o analizę danych. Sposób ich przygotowania, przetwarzania i ich końcowy kształt oraz czas na te procesy poświęcony będzie u podstaw naszych analiz. Zawsze. Będzie sercem naszego układu pobierania, przetwarzania i dostarczania danych. Dlatego wszechstronność narzędzia ETL powinna być jednym z kluczowych kryteriów przemawiających za wyborem konkretnego rozwiązania.
Jak wybrać narzędzie ETL?
Możemy wyróżnić 5 obszarów które należy wziąć pod uwagę.
- Podłączanie do danych: narzędzie ETL powinno mieć możliwość komunikowania się z każdym źródłem danych, niezależnie od jego pochodzenia (bazy danych, usługi strumieniowe, pliki)
- Wydajność: przenoszenie i modyfikowanie danych wymaga odpowiedniej mocy obliczeniowej, dlatego narzędzie ETL powinno móc poradzić sobie z coraz większym rozmiarem naszych danych w przyszłości.
- Elastyczność transformacji: dopasowywanie, łączenie i zmienianie danych ma kluczowe znaczenie przy ich przekształcaniu – większość z tych operacji powinna móc zostać wykonana za pomocą prostych operacji przeciągnij i upuść.
- Jakość danych: dane z którymi rozpoczynamy pracę nie są oczyszczone i uporządkowane. Informacje zawarte w naszych danych ukarzą się nam swoje tajemnice tylko wtedy gdy będą jednorodne i uporządkowane.
- Elastyczne opcje gromadzenia danych: narzędzie ETL powinno dawać możliwość określenia czy dane mają być odświeżane w interwałach czasowych, czy odświeżyć tylko najnowsze dane, całą bazę, a może tylko konkretną ich część.
Proces ETL- gotowe rozwiązania
Na rynku jest wiele gotowych rozwiązań ETL jak chociaż: SAS ETL Studio, Alteryx, Oracle Warehouse Builder, Pentaho Data Integration. Wszystkie one zapewniają bogaty wachlarz funkcjonalności oraz możliwość podłączenia do najróżniejszych źródeł danych. Ich implementacja zazwyczaj nie jest problematyczna za to koszty zakupu już mogą stanowić barierę ciężką do pokonania dla firm bez odpowiednio dużego budżetu przewidzianego na takie wydatki.
Tym ciekawsze staje się zastosowanie Tableau Prep. Zwłaszcza jeśli myślimy o wykorzystaniu w naszym „właściwym” Business Intelligence technologii Tableau. Tableau Prep jest „wmontowany” w licencję Tableau Creator, nie pociąga zatem za sobą dodatkowych kosztów. Ma bardzo ciekawe możliwości zarówno analizy samych metadanych. Jak też rozmaitych przekształceń, grupowań, agregacji, czyszczenia itp. samych danych – jeszcze przed ich „wpuszczeniem” do Tableau. W prosty, graficzny sposób można zaprojektować zarówno sam proces ETL, jak też na bieżąco sprawdzić rezultaty określonych transformacji danych. „Na wyjściu” uzyskujemy gotowy ekstrakt Tableau, lub plik csv.
Co istotne, raz zdefiniowany proces (tzw. Tableau Flow, .tfl) można później uruchamiać według zdefiniowanego schedullera, lub na życzenie.
Proces ETL- dlaczego warto z niego korzystać?
Historia procesów ETL ma prawie 50 lat. Od tego czasu firmy polegały na ETL, aby uzyskać skonsolidowany widok swoich danych. Dzięki ETL organizacje mogą analizować swoje dane znajdujące się w wielu lokalizacjach i w różnych formatach. Mogą również podejmować na ich podstawie szybsze i lepsze decyzje biznesowe.