Wanneer de verdeling van een variabele beschreven moet worden, moet er gebruik gemaakt worden van een centrummaat en een spreidingsmaat. Wanneer een verdeling normaal verdeeld is, zijn het gemiddelde en de variantie of standaardafwijking de beste samenvattingsmaten. Echter, wanneer de verdeling scheef verdeeld is, is de vijf-getallen-samenvatting een betere samenvatting van de verdeling. Hieruit kan namelijk opgemaakt worden dat de variabele niet symmetrisch verdeeld is.
De grafische weergave van de vijf-getallen-samenvatting noemen we een boxplot. Hieruit kan men meer aflezen dan uit de combinatie van het gemiddelde met een standaardafwijking. Deze pagina gaat over de variantie als spreidingsmaat. Vaak wordt gesproken over de standaardafwijking, dit is de wortel van de variantie. Een ander woord voor de standaardafwijking is de standaarddeviatie.
De formule voor de variantie volgt zo en zal straks in een voorbeeld worden uitgelegd. Er zijn twee verschillende formules voor de variantie. Er is een formule voor σ2, de variantie van een populatie, en een formule voor s2, de variantie van een steekproef. Beide formules volgen nu.
De formule voor de variantie van een populatie ziet er als volgt uit: σ2 = 1⁄N • Σ(xi – μ)2
De formule voor de variantie van een steekproef ziet er als volgt uit: s2 = 1⁄(n-1) • Σ(xi – x̄)2
Het verschil zit hem, naast de symbolen voor de variantie, in het teken dat staat voor het gemiddelde. x̄ staat voor het steekproefgemiddelde en μ voor het populatiegemiddelde. Belangrijk bij statistiek is de essentie ervan. Het idee is natuurlijk om gegevens uit een steekproef te analyseren om vervolgens een conclusie te kunnen trekken die wat zegt over de populatie. Hiermee bedoel ik te zeggen dat s2 een benadering is van de werkelijke variantie in de populatie, σ2. Om de variantie te berekenen is het gemiddelde nodig. Aangezien het steekproefgemiddelde gebruikt wordt in de formule voor de standaarddeviatie, wordt eigenlijk de variantie benaderd middels een berekening waarin al met een benadering gerekend wordt. Dit betekent dat er een vrijheidsgraad verloren gaat, waardoor er voor de variantie in een steeproef gedeeld wordt door de steekproefgrootte minus 1, in plaats van n. Het belangrijkste om te onthouden is, dat de som van de gekwadrateerde veschillen door n gedeeld moet worden wanneer het om gegevens van de hele populatie gaat en dat deze som gedeeld door n-1 moet worden wanneer het om een steekproef gaat.
Voorbeeld
Om de formule goed te begrijpen is een voorbeeld wellicht het beste. Stel dat je de cijfers van jouzelf en 5 vrienden op een tentamen statistiek hebt. De cijfers zijn als volgt: een 1, 3, 4, 5, 5 en 6, welke ook weergegeven zijn in onderstaande tabel.
Persoon |
xi |
xi – x̄ |
(xi – x̄)2 |
Anna |
1 |
-3 |
9 |
Ben |
3 |
-1 |
1 |
Charles |
4 |
0 |
0 |
Dennis |
5 |
1 |
1 |
Elise |
5 |
1 |
1 |
Floor |
6 |
2 |
4 |
Som (Σ) |
24 |
0 |
16 |
Om het gemiddelde cijfer uit te rekenen, welke nodig is om de variantie uit te rekenen, tellen we alle cijfers bij elkaar op en delen we dit door het aantal personen. De som van de cijfers is 24 wat betekent dat het gemiddelde 24/6=4 is. Aangezien de variantie een spreidingsmaat is, is de volgende stap om per persoon te kijken hoeveel zij hoger of lager scoren dan het gemiddelde. Hiervoor wordt van hun cijfer het gemiddelde afgetrokken. De verschillen zijn te zien in de derde kolom. De 0 van Charles betekent dus dat zijn cijfer net zo hoog (of laag) is als het gemiddelde. Voor Anna geldt dat zij 3 punten lager scoort dan het gemiddelde. Om de variantie uit te rekenen moeten deze verschillen worden gekwadrateerd. Dit moet wederom per persoon gebeuren en deze waarden zijn te zien in de vierde kolom. Zoals je wellicht ziet, is het gemiddelde verschil 0. De som van de derde kolom is namelijk in alle gevallen nul, aangezien van elke waarde het gemiddelde wordt afgetrokken. Het is echter wel zinvol om het gemiddelde gekwradateerde verschil uit te rekenen. Hiervoor wordt de som van 16 gedeeld door het aantal personen – 1. De variantie in dit voorbeeld is dus 16/5=3,2.
Standaardafwijking
De variantie meet echter de gekwrateerde verschillen en wordt niet gemeten in dezelfde meeteenheid als de oorspronkelijke cijfers. Daarom wordt de wortel van de variantie berekend, aangezien deze waarde, de standaarddeviatie, wel de juiste meeteenheid heeft. De standaarddeviatie van de cijfers is dus √(3,2)=1,79.
Contact:
Voor vragen en/of opmerkingen mail naar: mail@statistiekles.nl
Big thinking precedes great achievement.
Wilfred Peterson |