NewDataLabS

Tableau - Narzędzia Business Intelligence

PL / EN
  • Wydarzenia
    • Konferencje
      • Data Strategy Day
    • Webinary
      • Salesforce
      • Tableau
      • Power BI
    • Szkolenia Tableau
      • Szkolenia online
      • Szkolenia zamknięte
    • Szkolenia Power BI
      • Kurs Power BI online
  • Baza Wiedzy
    • Baza Wiedzy Tableau
    • Baza Wiedzy Power BI
    • Baza Wiedzy Salesforce
  • Blog
  • Kontakt
  • Rozwiązania
    • Tableau
    • Power BI
    • Salesforce
    • Snowflake
    • AI - Einstein Discovery
    • Amplitude
  • Usługi
    • Warsztaty Proof of Concept
    • Warsztaty CRM
    • ETL - przygotowanie danych
    • Hurtownie danych
    • Wdrożenia BI
    • Wdrożenia CRM
    • Migracje
      • Migracje CRM
      • Migracje systemów BI
    • Asysta eksploatacyjna
    • Embedded Analytics
    • Audyty Tableau
    • Szkolenia otwarte
      • Tableau
      • Power BI
    • Szkolenia zamknięte
      • Tableau
      • Salesforce
  • O firmie
    • O nas
    • Kariera
  • Klienci
    • Wybrani Klienci
    • Case Study

Wizualizacja rozkładu danych

7 września 2022

Wizualizacja rozkładu danych. Na wczesnym etapie analizy istotne jest zrozumienie, z jakimi danymi mamy do czynienia. Czy są to wartości liczbowe czy opisowe? Które zmienne są istotne? I jak wygląda rozkład tych wartości? Zwłaszcza ten ostatni element jest istotny do lepszego zrozumienia danych. Pozwala on znaleźć odpowiedź na szereg istotnych pytań – jaki jest zakres wartości zmiennych? Jak one się rozkładają? Czy rozkład jest symetryczny? Czy pewne cechy są dominujące, czy występują znaczne wartości odstające? Odpowiedzi na te pytania pozwalają nam budować wiedzę na temat danych, z którymi się mierzymy. Jak ułatwić sobie zrozumienie rozkładów zmiennych przy wykorzystaniu wizualizacji danych?

Używamy histogramu do analizy zmiennych numerycznych

Histogram jest specyficznym rodzajem bar chartu, gdzie na osi Y mamy licznik wartości, a na osi X kategorie lub przedziały danej wartości numerycznej. Wykres ten w Tableau tworzymy bardzo prosto – wystarczy przenieść żądaną miarę na wykres, a dostępna staje się opcja Histogram w Show me:

histogram w show me

Jak to zwykle bywa, wykres stworzony poprzez Show me wymaga nieco pracy. Zacznijmy od interpretacji samego wykresu. Rozkład wygląda na symetryczny, ale nieco rozciągnięty z obu stron. Wskazuje to istnienie wartości odstających (outliers), które zaburzają nieco odbiór. Są przy tym na tyle małe, że nawet nie widać ich na wykresie. Spróbujmy pozbyć się tych wartości, zmniejszając zakres zmiennej Profit:

wykres profitu

Jak widać większość wartości wpada w przedział 0-100. Możemy zmniejszyć rozmiar bin na osi X, aby lepiej poznać rozkład zmiennej w zakresie blisko 0:

rozkład zmiennej

Histogram możemy również analizować w postaci line chart lub area chart, nakładając drugą oś z wykresem liniowym lub obszarowym:

line chart i area chart

Rozkład zmiennych dla kategorii

Spróbujmy analizy dystrybucji dla lepszego zrozumienia kategorii. Załóżmy, że chcemy poznać rozkład zysku wg kategorii Region i State:

wykres rozkładu

Problematyczne w tym podejściu jest to, że poszczególne punkty się na siebie nakładają, utrudniając zrozumienie gdzie występuje koncentracja danych. Możemy to rozwiązać poprzez zmniejszenie Opacity:

dot plot

Jeżeli nadal czytelność nie jest dość dobra, to możemy powyższy dot plot zmienić na jitter plot, poprzez dodanie losowej dystrybucji punktów danych w ramach danej kategorii:

jitter plot

Dzięki temu zabiegowi łatwiej jest zidentyfikować punkty danych, ponieważ ich nakładanie jest ograniczone. Ale może rodzić to dodatkowe pytania – głównie o to, co jest na osi Y. Odbiorcy z reguły będą dopatrywać się dodatkowego znaczenia pozycji pionowej danego punktu danych, podczas gdy jest to tylko losowa nic nie znacząca liczba.

Jeżeli punktów jest dużo – używamy Box Plot

W sytuacji bardzo dużej ilości punktów danych wyciągnięcie wniosków na podstawie dot plot albo jitter plot może być trudne. Wtedy warto sięgnąć po wykres pudełkowy, czyli Box Plot – technikę wizualizacji pozwalającą na prezentację statystyk zbioru punktów:

box plot

Jak interpretować box plot? Główny punkt to mediana, od której odmierzane są percentyle: 25 i 75. Obszar pomiędzy nimi to box, a linia w środku (dzieląca box na dwie części) to właśnie mediana. Kolejnym elementem są wąsy, wskazujące wartość najmniejszą i największą w zbiorze, jednak z zaznaczeniem, że odległość nie jest większa niż 1.5 razy rozstęp pomiędzy percentylami 25 i 75 (tzw. rozstęp ćwiartkowy – czyli szerokość pudełka). Wszelkie wartości poza wąsami są traktowane jako wartości odstające – outliers:

box

Box plot jest użyteczną techniką wizualizacji zbiorów danych. Należy jednak pamiętać, że nie każdy odbiorca zna jego interpretację. Dlatego stosując ten wykres, należy zawsze zastosować odpowiednie oznaczenia aby uniknąć błędnej interpretacji.

Rozkład zmiennej wg kilku kategorii

Dotychczas wizualizowaliśmy rozkład jednej zmiennej numerycznej i według jednego wymiaru. Jeżeli chcemy zbadać rozkład wg dwóch cech kategorialnych, możemy posłużyć się heat mapą – inaczej highlight table. Rozbudowując tabelę o wykresy bar chart z boków tabeli, uzyskujemy dodatkowy aspekt analizy poprzez porównanie wartości skumulowanych:

bar chart

Jest to bardzo użyteczny sposób rozbudowania często popularnych wśród użytkowników tabel o dodatkowe aspekty wizualne.

Innym zastosowaniem jest zbadanie rozkładu dwóch zmiennych numerycznych jednocześnie. W przypadku dużej ilości punktów danych daje to podgląd obrazu ich dystrybucji. W poniższym przykładzie wykres główny to scatterplot, rozbudowany o marginal histograms:

marginal histograms

Wizualizacja rozkładu jest zawsze uproszczeniem

Rozkład danych ma dostarczyć nam informacji zbiorczych o danych: jaki zakres wartości obejmuje, jaka jest zmienność, czy rozkład jest symetryczny, które wartości występują najczęściej, czy są wartości odstające. Z uwagi na dużą liczbę punktów danych, takie zbiorcze podejście jest najczęściej najbardziej słusznym – pokazanie wszystkich obserwacji może przytłoczyć odbiorcę i być nieczytelnym i przez to również nieużytecznym. Powyższe techniki nie wyczerpują całości dostępnych technik wizualizacji – ale są najbardziej użyteczne i łatwe zarówno w przygotowaniu jak i odbiorze. Poza nimi można spotkać przykładowo wykres beeswarm – podobnie do jitter plot, ale punkty danych są rozkładane równomiernie. Innym rozwiązaniem jest violin chart – wykre skrzypcowy, który łączy ze sobą histogram w postaci area chart z box plotem. Jak widać opcji jest dużo, ale najlepiej kierować się prostotą i użytecznością, pamiętając o finalnym odbiorcy naszej wizualizacji.

Mateusz Karmalski Tableau Author

webinarium tableau Pobierz trial Tableau Desktop >
Pobierz trial Tableau Prep >
Wydarzenia
> Konferencja Tableau MBA
> Konferencja użytkowników Power BI
Webinary
> Webinary Salesforce
> Webinary Amplitude
> Webinary Tableau
> Webinary Power BI

Szkolenia Tableau
Szkolenia Power BI
ETL
> Tableau Prep
> Airflow
> Power Query
> Microsoft Integration Services
Hurtownie danych
> Snowflake
> Google BigQuery
> Microsoft SQL Server
> PostgreSQL
Business intelligence
> Tableau
> Salesforce
> Power BI
Analityka internetowa
> Amplitude
Salesforce
> Zarządzanie relacjami z Klientami
> Sprzedaż
> Zarządzanie szansami sprzedaży
> Analiza Business Intelligence
> Salesforce Manufacturing Cloud
> Salesforce Service Cloud
> Salesforce Marketing Cloud
Kontakt

kontakt@newdatalabs.com
kontakt@newdatalabs.com


601797783
781 648 194


Adres
Adres do korespondencji:
al. T. Boy’a – Żeleńskiego 26,
51-160 Wrocław

Copyright © 2025