Wanneer de verdeling van een variabele beschreven moet worden, moet er gebruik gemaakt worden van een centrummaat en een spreidingsmaat. Wanneer een verdeling normaal verdeeld is, zijn het gemiddelde en de variantie of standaardafwijking de beste samenvattingsmaten. Echter, wanneer de verdeling scheef verdeeld is, is de vijf-getallen-samenvatting een betere samenvatting van de verdeling. Hieruit kan namelijk opgemaakt worden dat de variabele niet symmetrisch verdeeld is.
Voor het tekenen van een boxplot is het minimum, het eerste kwartiel (Q1), de mediaan, het derde kwartiel (Q3) en het maximum nodig. Hierbij is de mediaan gelijk aan het tweede kwartiel en zodoende kan de mediaan ook aangegeven worden met de notatie Q2. Deze vijf getallen samen worden ook wel de vijf-getallen-samenvatting genoemd. (Engels: five number summary)
Voordat hier verder op wordt ingegaan, zullen de begrippen Q1, Q2 en Q3 worden uitgelegd.
De mediaan is het middelste getal. Bij een oneven aantal waarnemingen is de mediaan het middelste getal. Bij een even aantal waarnemingen is de mediaan het gemiddelde van de omliggende getallen. De mediaan is altijd de waarneming op positie (n+1)/2.
Voorbeeld 1: het berekenen van de mediaan.
Voorbeeld 1a: Bij een even aantal waarnemingen.
1 2 3 4 | 5 6 7 8
Op positie (8+1)/2=4½ staat de mediaan, dit is dus het gemiddelde van de getallen op positie 4 en 5. In dit geval is de mediaan dus (4+5)/2=4,5.
Voorbeeld 1b: Bij een oneven aantal waarnemingen.
1 2 3 4 5 6 7 8 9
(9+1)/2=5 Op positie 5 staat de mediaan. In dit geval is de mediaan dus 5.
Q1 is de mediaan van de eerste helft. Q3 is de mediaan van de tweede helft. De mediaan bepaalt waar de grens tussen beide helften ligt. Als de mediaan precies een getal is, dit is dus het geval bij een oneven aantal waarnemingen, doet deze bij de berekeningen van Q1 en Q3 niet meer mee. Wanneer de mediaan een niet bestaand getal is, dit is het geval bij een even aantal waarnemingen, doen alle getallen mee. In voorbeeld 1a, doen dus alle getallen links en rechts van de mediaan, de streep, mee.
Voorbeeld 2: alle mogelijk combinaties.
1 2 | 3 4 | 5 6 | 7 8
Zoals aangegeven in voorbeeld 1a is de mediaan hier 4,5. Voor Q1 wordt gekeken naar de getallen 1, 2, 3 en 4; hiervan is de mediaan 2,5. Voor Q3 wordt gekeken naar de getallen 5, 6, 7 en 8; hiervan is de mediaan 6,5.
1 2 | 3 4 5 6 7 | 8 9
Zoals aangegeven in voorbeeld 1b is de mediaan hier 5. Voor Q1 wordt gekeken naar de getallen 1, 2, 3 en 4; hiervan is de mediaan 2,5. Voor Q3 wordt gekeken naar de getallen 6, 7, 8 en 9; hiervan is de mediaan 7,5.
1 2 3 4 5 | 6 7 8 9 10
In dit geval is de mediaan het (10+1)/2=5½e getal. Dit is dus het gemiddelde van getal 5 en 6, waardoor de mediaan (5+6)/2=5,5 is. Voor Q1 wordt gekeken naar de getallen 1, 2, 3, 4 en 5; hiervan is de mediaan 3. Voor Q3 wordt gekeken naar de getallen 6, 7, 8, 9 en 10; hiervan is de mediaan 8.
1 2 3 4 5 6 7 8 9 10 11
In dit geval is de mediaan het (11+1)/2=6e getal. De mediaan is dus 6. Voor Q1 wordt gekeken naar de getallen 1, 2, 3, 4 en 5; hiervan is de mediaan 3. Voor Q3 wordt gekeken naar de getallen 7, 8, 9, 10 en 11; hiervan is de mediaan 9.
Op basis van de vijf-getallen-samenvatting kan dus een boxplot worden getekend. Bij alle 5 de getallen wordt een streepje gezet. Tussen Q1 en Q3 wordt hier een box van gemaakt. Het minimum en het maximum worden door middel van een lijn met deze box verbonden.
Voorbeeld 3: het tekenen van een boxplot.
-11 -7 -2 | -2 -1 0 1 2 2 3 | 4 12 15
Vijf-getallen-samenvatting: -11, -2, 1, 3,5 en 15.
De bijbehorende boxplot ziet er als volgt uit:
Wat afgelezen kan worden uit de boxplot is dat de verdeling redelijk symmetrisch is, met de middelste 50% dicht bij elkaar, maar de laagste en voornamelijk de hoogste 25% ver uitgespreid.
Wat afgelezen kan worden van de oorspronkelijke getallen, maar niet van de boxplot is dat er eigenlijk 4 uitschieters (ook wel uitbijters genoemd) zijn. Om dit wel te kunnen weergeven in een boxplot bestaat de gemodificeerde boxplot. (Engels: modified boxplot)
Deze gemodificeerde boxplot kan getekend worden met behulp van de 1,5x InterKwartielAfstand-regel (IKA) (Engels: InterQuartileRange rule (IQR)) Deze regels speurt als het ware de uitschieters op. De Interkwartielafstand is de afstand tussen beide kwartielen, oftewel het verschil tussen Q3 en Q1. Deze afstand dient met 1,5 vermenigvuldigd te worden. Deze waarde moet bij Q3 worden opgeteld en van Q1 worden afgetrokken. Dit zijn de 2 grenzen, alle waarden buiten dit bereik zijn volgens deze regel uitschieters. Deze worden in de boxplot weergegeven met een cirkel. Het oorspronkelijk minimum en maximum worden nu vervangen door de bepaalde ondergrens en bovengrens.
Met deze boxplot wordt er een beter beeld gecreëerd van de werkelijkheid.
Voorbeeld 4: het tekenen van een gemodificeerde boxplot.
Bij dit voorbeeld wordt verder gegaan met de gegevens uit voorbeeld 3.
De interkwartielafstand is nu 3,5 – (-2) = 5,5.
1,5 Maal de IKA is dus 1,5 * 5,5 = 8,25.
Q1 – 8,25 = -2 – 8,25 = -10,25
Q3 + 8,25 = 3,5 + 8,25 = 11,75
De waarden -11, 12 en 15 zijn dus volgens de 1,5xIKA-regel uitschieters. De gemodificeerde boxplot ziet er als volgt uit:
Extra:
Ook kunnen 2 boxplots naast elkaar worden getekend om zo bijvoorbeeld de verdeling in inkomen tussen mannen en vrouwen te vergelijken.
Contact:
Voor vragen en/of opmerkingen mail naar: mail@statistiekles.nl
Innovation distinguishes between a leader and a follower.
Steve Jobs |