Šidák-Korrektur

Die Šidák-Korrektur ist ein Verfahren der mathematischen Statistik bei der Verwendung multipler Tests. Dazu werden beim Test einer Globalhypothese mit Hilfe mehrerer Einzeltests die Signifikanzniveaus der Einzeltests so korrigiert, dass der Test der Globalhypothese das vorgegebene Signifikanzniveau hat. Die Šidák-Korrektur kann angewendet werden, wenn die einzelnen Tests stochastisch unabhängig sind oder wenn die Teststatistiken der Einzeltests eine gemeinsame multivariate Normalverteilung besitzen und die Annahmebereiche der Tests eine spezielle Form haben. Wenn die Voraussetzungen für die Anwendung der Šidák-Korrektur erfüllt sind, ergibt sich eine Verbesserung gegenüber der Bonferroni-Korrektur, die ohne besondere Voraussetzungen anwendbar ist.

Globalhypothese und Elementarhypothesen

Zu k {\displaystyle k} statistischen Tests mit den Nullhypothesen H 1 , , H k {\displaystyle H_{1},\dots ,H_{k}} kann die Durchschnittshypothese H 0 = j = 1 k H j {\displaystyle H_{0}=\cap _{j=1}^{k}H_{j}} gebildet werden. Die Hypothesen H 1 , , H k {\displaystyle H_{1},\dots ,H_{k}} heißen in diesem Zusammenhang Elementarhypothesen und H 0 {\displaystyle H_{0}} heißt Globalhypothese. Ein Test für die Nullhypothese H 0 {\displaystyle H_{0}} kann auf den Tests für die einzelnen Elementarhypothesen aufgebaut werden, da die Nullhypothese H 0 {\displaystyle H_{0}} genau dann falsch ist, wenn mindestens eine der Elementarhypothesen falsch ist. Eine mögliche Testprozedur besteht also darin, H 0 {\displaystyle H_{0}} genau dann abzulehnen, wenn mindestens eine der Hypothesen H 1 , , H k {\displaystyle H_{1},\dots ,H_{k}} abgelehnt wird. Ein vorgegebenes globales Signifikanzniveau α g l o b a l ( 0 , 1 ) {\displaystyle \alpha _{\mathrm {global} }\in (0,1)} für den Test von H 0 {\displaystyle H_{0}} kann im Allgemeinen nicht eingehalten werden, wenn dieses als lokales Signifikanzniveau für die Einzeltests verwendet wird, da es dann im Allgemeinen zur so genannten Alphafehler-Kumulierung kommt. Um das vorgegebene globale Signifikanzniveau α g l o b a l ( 0 , 1 ) {\displaystyle \alpha _{\mathrm {global} }\in (0,1)} einzuhalten, kann basierend auf der Bonferroni-Korrektur das lokale Signifikanzniveau α l o k a l = α g l o b a l / k {\displaystyle \alpha _{\mathrm {lokal} }=\alpha _{\mathrm {global} }/k} für die einzelnen Tests vorgegeben werden. Im Vergleich zu diesem allgemein anwendbaren Standardansatz ergibt sich mit der Šidák-Korrektur unter bestimmten Voraussetzungen ein verbessertes Verfahren.

Berechnung der Šidák-Korrektur

Eine Voraussetzung für die Anwendung der Šidák-Korrektur ist die stochastische Unabhängigkeit der Einzeltests. Eine alternative Voraussetzung ist eine multivariate Normalverteilung für die Teststatistiken der Einzeltests, wobei die stochastische Unabhängigkeit nicht erforderlich ist; allerdings müssen die Annahmebereiche der Teststatistiken Intervalle sein, die symmetrisch zum jeweiligen Erwartungswert sind. Die Zulässigkeit der Anwendung der Šidák-Korrektur bei multivariater Normalverteilung und beliebiger Abhängigkeit ergibt sich aus der Šidák-Ungleichung. Wenn eine der beiden Voraussetzungen erfüllt ist, ist für den Test der Globalhypothese das globale Signifikanzniveau von α g l o b a l {\displaystyle \alpha _{\mathrm {global} }} dann gewährleistet, wenn jeder der k {\displaystyle k} Einzeltests zum lokalen Signifikanzniveau

α l o k a l = 1 ( 1 α g l o b a l ) 1 / k {\displaystyle \alpha _{\mathrm {lokal} }=1-(1-\alpha _{\mathrm {global} })^{1/k}}

durchgeführt wird und die Globalhypothese abgelehnt wird, wenn mindestens ein Einzeltest zur Ablehnung der betreffenden Elementarhypothese führt.

Im Vergleich zur Bonferroni-Korrektur, die für jeden Einzeltest das lokale Signifikanzniveau α g l o b a l / k {\displaystyle \alpha _{\mathrm {global} }/k} verlangt, gilt

1 ( 1 α g l o b a l ) 1 / k > α g l o b a l / k für k > 1 . {\displaystyle 1-(1-\alpha _{\mathrm {global} })^{1/k}>\alpha _{\mathrm {global} }/k\quad {\text{für}}\quad k>1\;.}

Mit der Šidák-Korrektur ist die Reduktion des lokalen Signifikanzniveaus im Vergleich zum globalen Signifikanzniveau weniger stark als mit der Bonferroni-Korrektur. Allerdings ist der Unterschied nicht sehr groß. Beispielsweise ergibt sich für α g l o b a l = 0 , 05 {\displaystyle \alpha _{\mathrm {global} }=0{,}05} und k = 10 {\displaystyle k=10} mit der Šidák-Korrektur das lokale Signifikanzniveau α l o k a l 0,005 16 {\displaystyle \alpha _{\mathrm {lokal} }\approx 0{,}00516} im Vergleich zum lokalen Signifikanzniveau 0,005 {\displaystyle 0{,}005} bei Anwendung der Bonferroni-Korrektur.

Theoretischer Hintergrund

Die vorgegebenen Signifikanzniveaus beschränken die Fehlerwahrscheinlichkeiten 1. Art der entsprechenden Tests. Jeweils für j = 1 , , k {\displaystyle j=1,\dots ,k} bezeichne H j : θ Θ j {\displaystyle H_{j}:\theta \in \Theta _{j}} die Nullhypothese, T j {\displaystyle T_{j}} die Teststatistik, A j {\displaystyle A_{j}} den Ablehnbereich und g j ( θ ) = P θ j ( T j A j ) {\displaystyle g_{j}(\theta )=P_{\theta _{j}}(T_{j}\in A_{j})} die Gütefunktion des j {\displaystyle j} -ten Einzeltests. Das lokale Signifikanzniveau beschränkt die Fehlerwahrscheinlichkeiten 1. Art jedes Einzeltests. Für j = 1 , , k {\displaystyle j=1,\dots ,k} gilt also

g j ( θ ) α l o k a l = 1 ( 1 α g l o b a l ) 1 / k für alle  θ Θ j . {\displaystyle g_{j}(\theta )\leq \alpha _{\mathrm {lokal} }=1-(1-\alpha _{\mathrm {global} })^{1/k}\quad {\text{für alle }}\theta \in \Theta _{j}\;.}

Daraus folgt mit einfachen Umformungen

1 j = 1 k ( 1 g j ( θ ) ) α g l o b a l für alle  θ Θ 0 := j = 1 k Θ j . {\displaystyle 1-\prod _{j=1}^{k}(1-g_{j}(\theta ))\leq \alpha _{\mathrm {global} }\quad {\text{für alle }}\theta \in \Theta _{0}:=\bigcap _{j=1}^{k}\Theta _{j}\;.}

Für die Globalhypothese H 0 : θ Θ 0 {\displaystyle H_{0}:\theta \in \Theta _{0}} ist die Gütefunktion durch

g 0 ( θ ) = P θ ( H 0  wird abgelehnt ) = P θ ( Mindestens ein  H j  wird abgelehnt ) = 1 P θ ( Alle  H j  werden nicht abgelehnt ) = 1 P θ ( T 1 A 1 , , T k A k ) {\displaystyle {\begin{aligned}g_{0}(\theta )&=P_{\theta }(H_{0}{\text{ wird abgelehnt}})\\&=P_{\theta }({\text{Mindestens ein }}H_{j}{\text{ wird abgelehnt}})\\&=1-P_{\theta }({\text{Alle }}H_{j}{\text{ werden nicht abgelehnt}})\\&=1-P_{\theta }(T_{1}\notin A_{1},\ldots ,T_{k}\notin A_{k})\end{aligned}}}

gegeben. Es müssen nun zwei Anwendungsfälle der Šidák-Korrektur unterschieden werden:

1. Falls die Zufallsvariablen T 1 , , T k {\displaystyle T_{1},\ldots ,T_{k}} stochastisch unabhängig sind, gilt

P θ ( T 1 A 1 , , T k A k ) = j = 1 k P θ ( T j A j ) = j = 1 k ( 1 g j ( θ ) ) {\displaystyle P_{\theta }(T_{1}\notin A_{1},\ldots ,T_{k}\notin A_{k})=\prod _{j=1}^{k}P_{\theta }(T_{j}\notin A_{j})=\prod _{j=1}^{k}(1-g_{j}(\theta ))}

und somit

g 0 ( θ ) = 1 j = 1 k ( 1 g j ( θ ) ) α g l o b a l für alle  θ Θ 0 , {\displaystyle g_{0}(\theta )=1-\prod _{j=1}^{k}(1-g_{j}(\theta ))\leq \alpha _{\mathrm {global} }\quad {\text{für alle }}\theta \in \Theta _{0},\,}

so dass alle Fehlerwahrscheinlichkeiten 1. Art für den Test der Globalhypothese durch α g l o b a l {\displaystyle \alpha _{\mathrm {global} }} beschränkt sind.

2. Falls die Zufallsvariablen T 1 , , T k {\displaystyle T_{1},\ldots ,T_{k}} multivariat normalverteilt, aber nicht notwendig stochastisch unabhängig, sind und falls alle Annahmebereiche symmetrische Intervalle zu den jeweiligen Erwartungswerten sind, ergibt die Šidák-Ungleichung

P θ ( T 1 A 1 , , T k A k ) j = 1 k P θ ( T j A j ) = j = 1 k ( 1 g j ( θ ) ) {\displaystyle P_{\theta }(T_{1}\notin A_{1},\ldots ,T_{k}\notin A_{k})\geq \prod _{j=1}^{k}P_{\theta }(T_{j}\notin A_{j})=\prod _{j=1}^{k}(1-g_{j}(\theta ))} .

Somit ergibt sich

g 0 ( θ ) 1 j = 1 k ( 1 g j ( θ ) ) α g l o b a l für alle  θ Θ 0 , {\displaystyle g_{0}(\theta )\leq 1-\prod _{j=1}^{k}(1-g_{j}(\theta ))\leq \alpha _{\mathrm {global} }\quad {\text{für alle }}\theta \in \Theta _{0},\,}

so dass auch in diesem Fall alle Fehlerwahrscheinlichkeiten 1. Art für den Test der Globalhypothese durch α g l o b a l {\displaystyle \alpha _{\mathrm {global} }} beschränkt sind.

Während im ersten Fall eine Faktorisierung der Wahrscheinlichkeit P θ ( T 1 A 1 , , T k A k ) {\displaystyle P_{\theta }(T_{1}\notin A_{1},\ldots ,T_{k}\notin A_{k})} aufgrund der stochastischen Unabhängigkeit möglich ist, wird diese Wahrscheinlichkeit im zweiten Fall mit Hilfe der Šidák-Ungleichung durch ein Produkt von Wahrscheinlichkeiten nach unten abgeschätzt.

Literatur

  • Xinping Ciu, Thorsten Dickhaus, Ying Ding, Jason C. Hsu (Hrsg.): Handbook of Multiple Comparisons. Chapman and Hall/CRC, Boca Raton 2021, ISBN 978-0-367-14067-0, doi:10.1201/9780429030888 (E-Book-ISBN 978-0-429-03088-8). 
  • Thorsten Dickhaus: Multiples Testen – Skript zur Lehrveranstaltung. Hrsg.: Universität Bremen, Institut für Statistik. Bremen 2022 (uni-bremen.de [PDF; abgerufen am 11. Januar 2023] Version: 8. April 2022). 
  • Alexei Dimitrenko, Jason C. Hsu: Multiple Testing in Clinical Trials. In: Samuel Kotz et al. (Hrsg.): Encyclopedia of Statistical Sciences. 2. Auflage. Wiley, New York 2006, ISBN 978-0-471-15044-2, S. 5111–5117, doi:10.1002/0471667196. 
  • Jason C. Hsu: Multiple Comparisons – Theory and Methods. Chapman and Hall, London 1996, ISBN 978-0-412-98281-1, doi:10.1201/b15074 (E-Book-ISBN 9780429170874). 
  • E. L. Lehmann, Joseph P. Romano: Testing Statistical Hypothesis. 4. Auflage. Springer, Cham 2022, ISBN 978-3-03070577-0, Chapter 9: Multiple Testing and Simultaneous Inference, doi:10.1007/978-3-030-70578-7 (E-Book-ISBN 978-3-030-70578-7).