Czym jest wykres pudełkowy Box Plot?
Box Plot, pudełko z wąsami, czy też jak mówią niektórzy strzykawki, to wizualizacja rozkładu. Uwielbiają ją statystycy, bo niesie ze sobą mnóstwo dodatkowych informacji. Osoby mniej obeznane ze statystyką reagują na nią nawet uczuleniem. A to dlatego, że bardzo ciężko coś z niej odczytać bez przygotowania. Wymaga zrozumienia kilku terminów i koncepcji. Choć narysowanie jej w Tableau zajmuje sekundy, wykorzystywana jest raczej oszczędnie.
Konstrukcja wykresu pudełkowego Box Plot
Jak polska nazwa wskazuje na Box Plot składają się pudełko i wąsy. Pudełko przekreślone jest wewnątrz kreską. Ta kreska to mediana. To taka wartość, że dla połowy populacji analizowana zmienna ma wartości niższe, a dla połowy wyższe. Tak np. pokazuje się w roczniku statystycznym wiek zawierania małżeństw. Jeśli dla kobiet wynosiłby on 29 lat, to znaczyłoby, że połowa z nich wyszła za mąż do dwudziestych dziewiątych urodzin. Reszta później.
Granice pudełka uzyskujemy znajdując pierwszy i trzeci kwartyl. To wartości zmiennej dla dwudziestego piątego i siedemdziesiątego piątego procenta populacji. A zatem od ściany do ściany mamy zakres wartości, które przypadają na środkowe 50% populacji. Co to oznaczałoby dla wieku zawierania małżeństw przez kobiety? Przyjmijmy wartość pierwszego kwartyla na 27,8 lat, a trzeciego na 31 lat. Oznaczałoby to, że środkowe i najbardziej typowe 50% pań wychodzi za mąż gdzieś między tymi granicami.
Różnica wartości od ścianki do ścianki to tzw. przedział ćwiartkowy. W literaturze bywa też nazywany przedziałem międzykwartylowym lub interkwartylowym. Często używa się skrótu IQR – od ang. Interquartile Range.
Mamy zatem pudełko. Czas na wąsy. I tu mamy dwie opcje. Prostsza, ale mniej używana zakłada, że każdy z wąsów rozciąga się od wartości dla najbardziej skrajnych przedstawicieli populacji do granic pudełka. Najczęściej jednak do zbudowania wąsów potrzebujemy odstępu ćwiartkowego. Półtora odstępu od ścianek pudełka wyznacza maksymalny zasięg wąsów. Wąsy nie muszą dosięgać do wszystkich składowych populacji. Te jej elementy, które znajdą się dalej to wartości skrajne, outliers, czy jak uczono mnie dawno temu na statystyce – wartości swobodne.
Przykładowy wykres pudełkowy Box Plot w Tableau
Na rysunku pokazany jest rozkład zysków legendarnego Sample Superstore w podziale na poszczególne stany USA. Górna część to pudełko z wąsami od jednego do drugiego końca populacji. Na tooltipie mamy informacje o wartościach skrajnych (maximum i minimum), czyli dla stanu o najniższych zyskach i tego o najwyższych. Pudełko pokazuje przedział dla najbardziej typowej połowy stanów. Jego granice opisane są jako Upper Hinge i Lowe Hinge. Odległość między nimi to IQR. Tu:
IQR = $7 286 – $230 = $7 256
Na dolnym rysunku mamy wąsy wyznaczone przez odłożenie:
1,5*IQR = 1,5*$7 256 = $10 884
A zatem dolny wąs kończy się na wartości 230 – 10 884 = – 10 654 dolarów, a górny na wartości 7 286+10 884=18 170 dolarów. Wartości mniejsze i większe to outlier’y. Mediana o wartości $2 196 wskazuje, że w połowie stanów zyski były mniejsze, a w połowie większe.
Jak narysować wykres pudełkowy Box Plot w Tableau?
Po przydługim wstępie mogłoby się zdawać, że to trudne, ale nie. Wystarczy otworzyć menu Analytics i z jego górnej lub dolnej części przeciągnąć Box Plot na wizualizację prezentującą rozkład.
Kolejna kwestia to edycja i formatowanie. Do obu dostęp daje kliknięcie na nasze pudełko z wąsami. Dobrze od razu wybrać jest opcję edit, bo ona pozwala na jedno i drugie. Otwiera ona takie okno dialogowe:
W części Plot Options możemy wybrać pomiędzy wąsami na 1,5*IQR lub na cały zakres populacji. Możemy też w tym pierwszym przypadku nie pokazywać tych elementów rozkładu, które mieszczą się w zakresie wąsów. Wówczas wizualizacja obejmie całe pudełko z wąsami i outlier’y.
Dalej mamy możliwość wyboru stylu pudełka, kolorów, ramek i stylu wąsów. Każda wizualizacja jest inna i warto korzystać z możliwości personalizacji. Mi najbardziej odpowiada styl Classic with Dual Fill.
Pudełko z wąsami oczami statystyków
Wracając do pierwszych słów tego posta, warto jeszcze raz uświadomić sobie różnice w podejściu do tego wykresu. Statystycy widzą w nim dostęp do wszystkich informacji, które opisałam, Jest to kluczowe, gdy można je porównać dla kilku różnych populacji. Alternatywą jest prosty histogram. Jest czytelny dla każdego niemal bez przygotowania. Jeśli jednak macie możliwość przygotowania odbiorcy swoich wizualizacji i zależy wam na precyzji porównań, warto rozważyć Box Plot.
Histogram
Box Plot
Agata Mężyńska, Tableau Desktop Certified Professional