11.3.2 Robuste Maßzahlen

Die in diesem Abschnitt vorgestellten Maßzahlen sind robust gegenüber Ausreißern, d.h. starke Änderungen einzelner Datenwerte verändern diese Maßzahlen nicht oder nur wenig.

Vorgegeben sei eine Urliste

x  =  ( x1 , x2 ,, xn )

zu einer Stichprobe vom Umfang n. Die Daten xi seien Merkmalswerte eines quantitativen Merkmals X.

Info 11.3.7  
 
Die durch aufsteigende Sortierung

x(1)      x(2)          x(n)

der Urliste gewonnene Liste x(  ) =( x(1) , x(2) ,, x(n) ) heißt die geordnete Liste oder auch geordnete Stichprobe (zur Urliste x). Der itte Eintrag x(i) in der geordneten Liste ist der i-te kleinste Wert in der Urliste.


Beispiel 11.3.8  
Betrachtet man wieder die Urliste x=( x1 , x2 ,, x20 ) zu der Stichprobe vom Umfang n=20 aus den vorangehenden Beispielen, so ergibt Sortieren die geordnete Stichprobe x(  ) =( x(1) , x(2) ,, x(20) ) zu

799991010101011 11111112121212131322



Info 11.3.9  
 
Der (empirische) Median x ~ , auch Zentralwert genannt, von x1 , x2 ,, xn ist durch

x ~   =  { x( n+1 2 ) falls n     ungerade bzw. 1 2 ·( x( n 2 ) + x( n 2 +1) ) falls n     gerade ist

definiert.


Im Gegensatz zum arithmetischen Mittel ist der (empirische) Median unempfindlich gegenüber Ausreißerdaten. Es kann z.B. der größte Wert in der Urliste beliebig vergrößert werden, ohne dass sich der Median ändert.

Beispiel 11.3.10  
Im obigen Beispiel ist der Stichprobenumfang n=20 gerade, damit ergibt sich für den Median

x ~   =   1 2 ·( x(10) + x(11) )  =   1 2 ·(11+11)  =  11.



Etwa die Hälfte der Daten in der Urliste sind kleinergleich und etwa die Hälfte der Daten in der Urliste sind größergleich als der Median x ~ . Dieses Prinzip kann man verallgemeinern, um Quantile zu definieren. Vorgegeben sei dazu eine Urliste x=( x1 , x2 ,, xn ) zu einer Stichprobe vom Umfang n eines quantitativen Merkmals X.

Info 11.3.11  
 
Es sei

x(  )   =  ( x(1) , x(2) ,, x(n) )

die zugehörige geordnete Stichprobe und

α(0,1)     und     k= floor (n·α)  =  n·α.

Dann heißt

x ~ α   =  { x(k+1) falls n·α 1 2 ·( x(k) + x(k+1) ) falls n·α

das Stichproben- α-Quantil oder einfach das α-Quantil von x1 , x2 , xn .


Das 0,25-Quantil nennt man auch das untere Quartil. Es trennt in etwa das untere Viertel der Datenwerte ab. Das 0,75-Quantil nennt man entsprechend das obere Quartil. Für α=0,5 ergibt sich der Median, also x ~ = x ~ 0,5 . Ist α(0,1), so wird die Datenreihe x1 , x2 ,, xn so aufgeteilt, dass etwa α·100% der Daten kleinergleich x ~ α und etwa (1-α)·100% der Daten größergleich x ~ α sind.

Beispiel 11.3.12  
Vorgelegt sei wieder die Urliste x=( x1 , x2 ,, x20 ) zu der Stichprobe vom Umfang n=20 aus den vorangehenden Beispielen mit der zugehörigen geordneten Stichprobe x(  ) =( x(1) , x(2) ,, x(20) )

799991010101011 11111112121212131322

Für α=0,25 ist das 25%-Quantil bestimmt durch n·α= 20 4 =5, also ergibt sich für das untere Quartil

x ~ 0,25   =   1 2 ·( x(5) + x(6) )  =   1 2 ·(9+10)  =   19 2   =  9,5.

Für das obere Quartil setzen wir dagegen α=0,75 ein und erhalten n·α= 20·3 4 =15, folglich

x ~ 0,75   =   1 2 ·( x(15) + x(16) )  =   1 2 ·(12+12)  =  12.



Vorgegeben sei wieder eine Stichprobe vom Umfang n zu einem quantitativen Merkmal X mit zugehöriger geordneter Stichprobe

x(  )   =  ( x(1) , x(2) ,, x(n) )

und

α[0,  0.5)     und     k  =   floor (n·α)  =  n·α.



Info 11.3.13  
 
Das α-getrimmte (oder auch α-gestutzte) Stichprobenmittel ist definiert durch

x α   =   1 n-2·k · j=k+1 n-k x(j)   =   1 n-2·k ·( x(k+1) ++ x(n-k) ).



Das α-getrimmte Mittel ist ein arithmetischer Mittelwert, welcher die α·100% größten und die α·100% kleinsten Daten nicht in die Rechnung mit einbezieht. Es stellt somit ein flexibles Instrument zum Schutz gegenüber Ausreißern an den Rändern des Datenbereichs dar. Bei der Verwendung ist aber zu bedenken, dass nicht mehr alle ermittelten Daten in die Rechnung einfließen.

Beispiel 11.3.14  
In dem schon mehrfach betrachteten Datensatz ist die geordnete Stichprobe x() =( x(1) , x(2) ,, x(20) ) gegeben durch

799991010101011 11111112121212131322

und für α=0,12 sowie k=20·0,12=2,4=2 erhalten wir das 12%-getrimmte Mittel der Stichprobe zu

x 0.12   =   1 16 · j=3 18 x(j)   =   1 16 ·172  =  10,75.

Es liegt niedriger als das arithmetische Mittel x =11,15 da zum Beispiel der Ausreißer x(20) =22 ignoriert wurde.