Wykres pudełkowy – jak czytać z pudełka z wąsami?
Na wstępie należałoby przypomnieć, na co wykres pudełkowy i jak wygląda. Pudełko z wąsami przypomina nieco strzykawkę. Przyjmijmy, że analizujemy rozkład wartości faktur. By narysować taki wykres musimy uporządkować faktury wg wartości od najniższej do najwyższej, a następnie w tej kolejności podzielić je na 4 równe grupy. Pierwsza grupa będzie zawierać faktury o najniższych wartościach. Ostatnia – o najwyższych. Środkowa, pionowa kreska na wykresie to mediana. Wyznacza ją wartość graniczną między 2 i 3 grupą. To środkowa, pionowa kreska na wykresie. Połowa faktur ma wartości nie wyższe niż mediana, a połowa nie niższe. Analogicznie wyznaczamy pierwszy kwartyl (ang. Lower Hinge), jako wartość graniczną między pierwszą i drugą grupą. Wartość graniczna między grupami trzecią i czwartą to trzeci kwartyl (ang. Upper Hinge). W ten sposób otrzymujemy trzy pionowe kreski budujące nasze pudełko.

2 sposoby wyznaczania zasięgu wąsów- minimalna i maksymalna wartość na wykresie
Teraz kwestia bardziej skomplikowana, czyli wyznaczanie zasięgu wąsów – minimalnej i maksymalnej wartości na wykresie. Są na to dwa sposoby. Prostszy, ale rzadziej stosowany, nakazuje, by wąsy sięgały do najdalszych wyników, jakie mamy. Jeśli więc najniższa faktura z analizowanych była na kwotę 32 zł, a najwyższa na 15 647,20 zł – takie będą wartości na końcach wąsów.
Druga metoda wykorzystuje współczynnik zwany z ang. IQR, czyli rozstęp międzykwartylowy. Każdy wąs powinien mieć zasięg co najwyżej 3/2 takiego rozstępu. A rozstęp to różnica wartości pomiędzy trzecim i pierwszym kwartylem, czyli długość pudełka.
Dla przykładu tym razem przyjmijmy wartości takie, jak na rysunku. Wartość najniższa to 300, najwyższa 6400. Kwartyl pierwszy ma wartość Q1=600, mediana: Q2=1100, a kwartyl trzeci: Q3=2400. Rozstęp ma zatem wartość:
IQR = Q3 – Q1 = 2400-600 =1800
A 3/2 rozstępu:
3/2 IQR = 3/2*1800 =2700.
Wiedząc to możemy wyznaczyć zasięg wąsów. Najpierw dolny:
Q1 – 3/2 IQR = 600-2700 =-2100
Ta wartość jest mniejsza od najniższej wartości w zbiorze, czyli 300. W tej sytuacji wartość minimalna i zasięg dolnego wąsa to 300. Teraz policzymy zasięg górnego wąsa:
Q3 + 3/2 IQR= 2400+ 2700 =5100
Ta wartość jest mniejsza od najwyższej tj. 6400. Dlatego wąs sięgnie do wartości 5100. Wszystkie wartości przekraczające tą granicę nazywa się wartościami skrajnymi lub z ang. outlierami.
Wykres pudełkowy- wady i zalety
Wykres pudełkowy to znakomita metoda prezentacji rozkładu populacji. Jej ogromną zaletą jest duża ilość informacji na relatywnie niewielkiej powierzchni. Wadą jest fakt, że nie jest to wykres intuicyjny. Nikt z nas nie rodzi się z umiejętnością odczytywania jego tajemnic. Tego trzeba się nauczyć, a w firmie odbiorców raportów zwykle muszą tego nauczyć ich twórcy. Ale czasem naprawdę warto. Proszę tylko spojrzeć:

Jeden rzut okiem i wiemy, w której podkategorii wartości faktur są bardziej rozproszone, a gdzie bardziej skoncentrowane. Widzimy, że najprawdopodobniej we wszystkich przypadkach więcej jest faktur o wartościach niższych niż wyższych. Świadczą o tym wyraźnie krótsze dolne części wykresów. Wiemy, w których podkategoriach produktów zdarzały się zamówienia bardzo duże, a gdzie nie. Wiemy też, które zamówienia stanowiły wartości skrajne. Można je więc z łatwością wyodrębnić, przeanalizować i na przykład zaoferować zindywidualizowaną obsługę tym klientom.
Edycja i formatowanie pudełka w Tableau
Niewiele jest wykresów, które w Tableau tworzy się prościej niż Box Plot, a więc o tym dosłownie dwa zdania. Opcje są dwie. Możemy utworzyć pudełko z wąsami korzystając z menu Show Me lub naciągnąć na już istniejącą wizualizację z menu Analysis.
Więcej zabawy jest z nadaniem wykresowi odpowiedniego wyglądu. I tu miła niespodzianka. W Tableau elementy tworzone przez menu Analysis zazwyczaj mają zarówno opcje edytowania, jak i formatowania. Zwykle częściowo się one pokrywają, ale nie do końca. W tym przypadku formatowanie jedynie powiela część opcji edycji. Nie ma więc sensu w ogóle się nim zajmować. By otworzyć okno edycji należy kliknąć na wykresie dwukrotnie.

Wykres pudełkowy – analiza
Przeanalizujmy to okno od góry, zaczynając od sekcji Plot Options. Tu możemy wybrać z menu metodę rysowania wąsów. Domyślna opcja to 3/2 IQR. Kolejne okienko pozwala wybrać, czy chcemy, żeby pod pudełkiem i wąsami widoczne były analizowane wartości. Jeśli zaznaczymy tą opcję, tak jak na pierwszym rysunku w tym artykule, widoczne będą tylko Outliery. Jeśli opcja będzie niezaznaczona, widok będzie taki jak na rysunku drugim.
Poniżej mamy do wybory opcje formatowania. Rozpoczynają się one od wyboru stylu. Ten z kolei decyduje o tym, na ile będziemy mogli wpływać na kolory boxplota. W przypadku Styli Modern i Classic with Dual Fill możemy wybrać spośród kilkudziesięciu gotowych zestawów kolorów, decydując o ich poziomie nasycenia. Style Glass i Classic bazują na pojedynczym kolorze, który wybieramy samodzielnie. Tu także mamy wpływ na poziom nasycenia. Ja osobiście najbardziej – z uwagi na czytelność – lubię styl Glass. Oprócz kolorów pudełka, możemy jeszcze wybrać kolory jego krawędzi i wąsów oraz styl końcówek wąsów. W ten sposób boxplot może łatwo zostać dopasowany do potrzeb. Zarówno tych wynikających z warunków analizy, jak i palety barw obowiązującej w firmie.
Agata Mężyńska,
Tableau Desktop Certified Professional