Note

Boxplot



Eksempel på opbygningen af et boxplot, med en enkelt
outlier øverst.

Et boxplot (også kendt som et box-and-whisker diagram) er en grafisk præsentation af det man normalt betegner et five-number summary. Et five-number summary består af følgende fem elementer.

  • Øvre adjacent
  • Tredje kvartil
  • Medianen (Anden kvartil)
  • Første kvartil
  • Nedre adjacent

Ud fra et boxplot kan man se forskellige karakteristika, som f.eks. outliers (vist med en sort prik på skitsen til højre), spredning og skævhed.

Beregning af værdier


Kvartiler

I statistik snakker man normalt om tre forskellige kvartiler, Q1, Q2 og Q3. Disse kvartiler deler et datasæt op i fire lige store dele. Den første kvartil, Q1, adskiller de laveste 25% af målingerne fra de højeste 75% af målingerne. På samme måde adskiller den anden kvartil, Q2, den laveste halvdel af målingerne fra den højeste halvdel af målingerne. Så den sidste kvartil, Q3, adskiller altså de laveste 75% af målingerne fra de 25% højeste.

Før man kan finde kvartilerne skal værdierne først sorteres i stigende rækkefølge. For at bestemme en kvartil, skal nedenstående ulighed være opfyldt. Her er k indekset for værdierne, p er kvartilen (Q1 = 0.25, Q2 = 0.5, Q3 = 0.75) og n er det samlede antal værdierne i dataserien.



Når man har fundet en position som opfylder uligheden, så vælger man den værdi som ligger til højre, altså værdien med indeks k+1. Der findes også forskellige andre måder at finde kvartiler på og eftersom kvartilerne kun afhænger af dataseriens længde, kan værdierne også slås op i en passende tabel.

Adjacente værdier

Til at beregne de to adjacente værdier, skal man først beregne IQR (InterQuartile Range), som er forskellen mellem den første og tredje kvartil.



De øvre og nedre adjacente værdi kan nu beregnes med nedenstående værdier.





For den øvre adjacente værdi benytter man normalt den mindste værdi i dataserien, som er større end den beregnede værdi, medmindre beregningen giver en værdi som findes i dataserien. For den nedre adjacente værdi benytter man normalt den største værdi i dataserien, som er mindre end den beregnede værdi, medmindre beregningen giver en værdi som findes i dataserien.


Sidens indhold er licenseret under Creative Commons BY-NC 2.5 Licensen. Så længe sidens indhold ikke benyttes til kommercielle formål, må du ændre og dele sidens indhold som du har lyst. Hvis du benytter sidens indhold andre steder på nettet eller videregiver sidens indhold i trykt form, skal forfatteren krediteres enten med navn eller link til denne side.

Siden blev genereret på 6 ms og der blev foretaget 1 databaseforespørgsler.