Hurtownie danych, a bazy danych
Zacznijmy od tego, czym są hurtownie danych i co je różni od baz danych. Można powiedzieć, że hurtownia danych stanowi pewien rodzaj zintegrowanej bazy danych, która gromadzi dane z różnych źródeł i pozwala na centralne zarządzanie nimi. Stanowi zbiór zagregowanych danych z wielu baz, które są udostępniane użytkownikom w postaci przejrzystych zestawień. Jak tworzone są hurtownie danych? ETL to system, który umożliwia ich zasilanie. Pierwszy krok stanowi extract, czyli pozyskanie danych ze źródeł zewnętrznych. Aby jednak hurtownia działała bez zarzutu, dane muszą być zintegrowane. Temu służy kolejny krok, czyli transform, polegający na uzgadnianiu i czyszczeniu danych. Na koniec dane zostają załadowane do hurtowni (load). Mimo wszystko stworzenie hurtowni danych stanowi często niemałe wyzwanie. Jest czasochłonne i wiąże się ze sporymi kosztami. Istnieje jednak alternatywa dla tradycyjnych baz danych.
Big data w chmurze – zalety
Tradycyjne hurtownie danych często są nieelastyczne, kosztowne, a proces ich tworzenia jest złożony i wymaga wsparcia działu IT. Nowoczesną alternatywą dla nich są rozwiązania typu self-service BI. Zaprojektowane dla chmury hurtownie danych są zwykle znacznie bardziej elastyczne, stanowią mniejszy wydatek dla firmy i łatwo je wdrożyć. To wygodny i szybki sposób na zarządzanie zasobami danych. Hurtownie danych w chmurze działają sprawnie i pozwalają na pracę na dużych wolumenach. Dostęp do nich mają nie tylko specjaliści, ale każdy użytkownik, który posiada odpowiednie uprawnienia. To oznacza, że nie trzeba wiedzy i umiejętności z zakresu IT, by pracować na umieszczonych w chmurze danych.
Hurtownie danych – przykłady
Doskonałym przykładem opartej na SQL i zaprojektowanej dla chmury hurtowni danych jest Snowflake, który obsługuje nowoczesne dane i aplikacje. Ten system jest niezwykle wydajny i pozwala na szybką obsługę zapytań. Jego wdrożenie nie wymaga wsparcia działu IT i nie jest czasochłonne. Snowflake jest „platform agnostic” – działa z AWS, Google i Microsoft Azure. Odseparowanie warstwy storage od computing daje olbrzymie możliwości skalowania narzędzia i optymalizuje koszty jego użycia (możemy dynamicznie przełączać się pomiędzy różnymi wariantami wydajnościowymi i kosztowymi Hurtowni Danych).
System jest skalowalny. Możemy np. wykorzystać niski performance i niską cenę do obsługi procesów ETL, idących w nocy (nawet przetwarzających duże wolumeny danych), a wyższą cenę i wyższy performance do obsługi skomplikowanych zapytań analitycznych ad hoc – co istotne, rozliczanie użycia mocy obliczeniowej odbywa się w interwałach sekundowych! Mówiąc obrazowo – to trochę tak jak z samochodami – czasem potrzebujemy auta z dużą pojemnością i ekonomicznym silnikiem, a kiedy indziej – małego auta z bardzo mocnym silnikiem. Snowflake daje możliwość takiego wyskalowania rozwiązania do naszych potrzeb. To znacząco usprawnia pracę z danymi.
Dzięki Snowflake zyskasz pełną kontrolę nad kosztami dla poszczególnych użytkowników. Skalowanie zasobów jest automatyczne, a udostępniane danych – bezpieczne. Aby dowiedzieć się więcej o Snowflake weź udział w webinarium lub skontaktuj się z nami.