Narzędzia ETL – kolejność kroków ma znaczenie
Procesy ETL polegają na wyodrębnieniu danych z różnych systemów źródłowych, przekształceniu ich oraz załadowaniu do docelowej hurtowni. W ELT natomiast kolejność jest nieco inna. Po pozyskaniu danych zostają one załadowane do hurtowni, gdzie przeprowadzana jest ich transformacja. Z czym wiąże się zmiana porządku następujących po sobie kroków? Sprawdźmy.
Analizując różnice ETL vs ELT warto zatrzymać się na chwilę przy schemacie przepływu danych. W przypadku ETL powstaje on podczas tworzenia hurtowni. Przy rozwiązaniach ELT natomiast dane mogą być przechowywane w surowej formie. Decyzja o ich końcowej strukturze zapada dopiero w trakcie ich odczytu. To oznacza, że ELT umożliwia realizację konceptu Schema-on-Read. Jest to nowe, modne ostatnio podejście do procesowania danych. Wciąż jednak ich przepływ może opierać się na Schema-on-Write, gdzie forma danych ustalana jest przed zasileniem nimi hurtowni.
ETL vs ELT – co z dodatkowym serwerem?
Posiadanie hurtowni danych wiąże się zwykle z koniecznością wykorzystywania dodatkowych narzędzi, które służą do jej zasilania. SSIS, Pentaho czy Informatica bez wątpienia zwiększają wydajność przepływu danych, jednak generują także spore koszty. Decydując się na dodatkowe narzędzia ETL musimy liczyć się ze sporymi wydatkami na ich infrastrukturę. Z tym problemem można jednak łatwo sobie poradzić przy pomocy Tableau Prep, wchodzącego w skład licencji Tableau Creator. Nie wymaga on dodatkowych nakładów i znakomicie radzi sobie ze znakomitą większością potrzeb Naszych Klientów, związanych z obsługą procesów ETL. Tableau Prep może pobierać dane z kilkudziesięciu formatów plikowych i bazodanowych, łączyć je ze sobą, czyścić i przekształcać. Wynik zapisywany jest w postaci ekstractu Tableau, tabeli bazodanowej w wybranym formacie lub pliku CSV. Cały proces ETL w Tableau Prep można zautomatyzować i uruchamiać „ze schedullera” ze zdefiniowaną częstotliwością.
W przypadku procesów ELT zastosowanie dodatkowych maszyn nie jest niezbędne. Zamiast na dodatkowym serwerze przekształcanie danych może odbywać się w miejscu docelowym, czyli hurtowni danych. Aby jednak przetwarzanie informacji przebiegało bez zarzutu, serwer ten musi być niezwykle wydajny.
ETL vs ELT – zastosowanie
W tradycyjnych hurtowniach danych znakomicie sprawdzają się narzędzia ETL, zwłaszcza przy skomplikowanych przekształceniach oraz małej ilości danych. To gwarancja dużej mocy obliczeniowej. ETL jest popularnym rozwiązaniem, lecz w niektórych przypadkach – mało optymalnym pod względem ponoszonych kosztów. ELT z kolei będzie dobrym wyborem przy transformacji dużych zbiorów nieustrukturyzowanych danych, w oparciu o skalowalne rozwiązania.
Czym jeszcze różnią się oba podejścia? Dostępem do danych. ELT zapewnia błyskawiczny dostęp do danych na serwerze docelowym, w ich surowej formie. W przypadku narzędzi ETL często dostęp do danych możliwy jest dopiero po zakończeniu procesu ich przetwarzania.
Jeśli chcesz bliżej poznać procesy ETL oraz korzyści z ich wdrożenia , zajrzyj na stronę NewDataLabS. W naszej ofercie dostępna jest także usługa przygotowania danych w oparciu o ETL, która ułatwia późniejsze wdrożenie narzędzi BI w Twojej firmie.