somersd#
- scipy.stats.somersd(x, y=None, alternative='two-sided')[Quelle]#
Berechnet Somers' D, ein asymmetrisches Maß für die ordinale Assoziation.
Wie Kendall's \(\tau\) ist Somers' \(D\) ein Maß für die Korrespondenz zwischen zwei Ranglisten. Beide Statistiken berücksichtigen die Differenz zwischen der Anzahl konformer und diskordanter Paare in zwei Ranglisten \(X\) und \(Y\) und sind beide so normiert, dass Werte nahe 1 auf eine starke Übereinstimmung und Werte nahe -1 auf eine starke Uneinigkeit hindeuten. Sie unterscheiden sich in ihrer Normierung. Um den Zusammenhang zu verdeutlichen, kann Somers' \(D\) in Bezug auf Kendall's \(\tau_a\) definiert werden:
\[D(Y|X) = \frac{\tau_a(X, Y)}{\tau_a(X, X)}\]Angenommen, die erste Rangliste \(X\) hat \(r\) verschiedene Ränge und die zweite Rangliste \(Y\) hat \(s\) verschiedene Ränge. Diese beiden Listen mit \(n\) Ranglisten können auch als \(r \times s\)-Kontingenztafel betrachtet werden, in der das Element \(i, j\) die Anzahl der Rangpaare mit Rang \(i\) in Rangliste \(X\) und Rang \(j\) in Rangliste \(Y\) ist. Dementsprechend erlaubt
somersdauch die Eingabe der Daten als einzelne, 2D-Kontingenztafel anstelle von zwei separaten, 1D-Ranglisten.Beachten Sie, dass die Definition von Somers' \(D\) asymmetrisch ist: Im Allgemeinen gilt \(D(Y|X) \neq D(X|Y)\).
somersd(x, y)berechnet Somers' \(D(Y|X)\): Die „Zeilenvariable“ \(X\) wird als unabhängige Variable behandelt und die „Spaltenvariable“ \(Y\) als abhängige. Für Somers' \(D(X|Y)\) vertauschen Sie die Eingabelisten oder transponieren die Eingabetabelle.- Parameter:
- xarray_like
1D-Array von Ranglisten, behandelt als die (Zeilen-) unabhängige Variable. Alternativ eine 2D-Kontingenztafel.
- yarray_like, optional
Wenn x ein 1D-Array von Ranglisten ist, dann ist y ein 1D-Array von Ranglisten gleicher Länge, behandelt als die (Spalten-) abhängige Variable. Wenn x 2D ist, wird y ignoriert.
- alternative{‘zweiseitig’, ‘kleiner’, ‘größer’}, optional
Definiert die Alternativhypothese. Standard ist 'two-sided'. Folgende Optionen sind verfügbar: * 'two-sided': Die Rangkorrelation ist ungleich Null. * 'less': Die Rangkorrelation ist negativ (kleiner als Null). * 'greater': Die Rangkorrelation ist positiv (größer als Null).
- Rückgabe:
- resSomersDResult
Ein SomersDResult-Objekt mit den folgenden Feldern:
- statisticfloat
Die Somers' \(D\)-Statistik.
- pvaluefloat
Der p-Wert für einen Hypothesentest, dessen Nullhypothese die Abwesenheit von Assoziation ist, \(D=0\). Siehe Hinweise für weitere Informationen.
- table2D-Array
Die Kontingenztafel, die aus den Ranglisten x und y gebildet wird (oder die bereitgestellte Kontingenztafel, wenn x ein 2D-Array ist).
Siehe auch
kendalltauBerechnet Kendall's Tau, ein weiteres Korrelationsmaß.
weightedtauBerechnet eine gewichtete Version von Kendall's Tau.
spearmanrBerechnet einen Spearman-Rangkorrelationskoeffizienten.
pearsonrBerechnet einen Pearson-Korrelationskoeffizienten.
Hinweise
Diese Funktion folgt dem Kontingenztafelansatz von [2] und [3]. Die p-Werte werden basierend auf einer asymptotischen Annäherung der Verteilung der Teststatistik unter der Nullhypothese \(D=0\) berechnet.
Theoretisch sollten Hypothesentests basierend auf Kendall's \(tau\) und Somers' \(D\) identisch sein. Die von
kendalltauzurückgegebenen p-Werte basieren jedoch auf der Nullhypothese der *Unabhängigkeit* zwischen \(X\) und \(Y\) (d.h. die Population, aus der die Paare in \(X\) und \(Y\) gezogen werden, enthält gleiche Anzahlen aller möglichen Paare), was spezifischer ist als die hier verwendete Nullhypothese \(D=0\). Wenn die Nullhypothese der Unabhängigkeit gewünscht ist, ist es akzeptabel, den vonkendalltauzurückgegebenen p-Wert mit der vonsomersdzurückgegebenen Statistik zu verwenden und umgekehrt. Weitere Informationen finden Sie unter [2].Kontingenztafeln werden nach der Konvention von SAS und R formatiert: Die erste übergebene Rangliste (
x) ist die „Zeilenvariable“ und die zweite übergebene Rangliste (y) ist die „Spaltenvariable“. Dies steht im Gegensatz zur Konvention in Somers' ursprünglichem Artikel [1].Referenzen
[1]Robert H. Somers, „A New Asymmetric Measure of Association for Ordinal Variables“, American Sociological Review, Bd. 27, Nr. 6, S. 799–811, 1962.
[2] (1,2)Morton B. Brown und Jacqueline K. Benedetti, „Sampling Behavior of Tests for Correlation in Two-Way Contingency Tables“, Journal of the American Statistical Association, Bd. 72, Nr. 358, S. 309–315, 1977.
[3]SAS Institute, Inc., „The FREQ Procedure (Book Excerpt)“, SAS/STAT 9.2 User’s Guide, Second Edition, SAS Publishing, 2009.
[4]Laerd Statistics, „Somers’ d using SPSS Statistics“, SPSS Statistics Tutorials and Statistical Guides, https://statistics.laerd.com/spss-tutorials/somers-d-using-spss-statistics.php, abgerufen am 31. Juli 2020.
Beispiele
Wir berechnen Somers' D für das Beispiel aus [4], in dem ein Hotelkettenbesitzer die Assoziation zwischen der Sauberkeit von Hotelzimmern und der Kundenzufriedenheit ermitteln möchte. Die unabhängige Variable, die Sauberkeit von Hotelzimmern, wird auf einer ordinalen Skala eingestuft: „unterdurchschnittlich (1)“, „durchschnittlich (2)“ oder „überdurchschnittlich (3)“. Die abhängige Variable, die Kundenzufriedenheit, wird auf einer zweiten Skala eingestuft: „sehr unzufrieden (1)“, „mäßig unzufrieden (2)“, „weder unzufrieden noch zufrieden (3)“, „mäßig zufrieden (4)“ oder „sehr zufrieden (5)“. 189 Kunden antworten auf die Umfrage, und die Ergebnisse werden in eine Kontingenztafel eingetragen, wobei die Sauberkeit von Hotelzimmern die „Zeilenvariable“ und die Kundenzufriedenheit die „Spaltenvariable“ darstellt.
27
25
14
7
0
7
14
18
35
12
1
3
2
7
17
Zum Beispiel haben 27 Kunden ihrer Zimmer eine Sauberkeitsbewertung von „unterdurchschnittlich (1)“ und eine entsprechende Zufriedenheit von „sehr unzufrieden (1)“ zugewiesen. Wir führen die Analyse wie folgt durch.
>>> from scipy.stats import somersd >>> table = [[27, 25, 14, 7, 0], [7, 14, 18, 35, 12], [1, 3, 2, 7, 17]] >>> res = somersd(table) >>> res.statistic 0.6032766111513396 >>> res.pvalue 1.0007091191074533e-27
Der Wert der Somers' D-Statistik beträgt ungefähr 0,6, was auf eine positive Korrelation zwischen Zimmerreinheit und Kundenzufriedenheit in der Stichprobe hinweist. Der p-Wert ist sehr klein, was eine sehr geringe Wahrscheinlichkeit dafür anzeigt, dass ein solch extremer Wert der Statistik unter der Nullhypothese beobachtet wird, dass die Statistik der gesamten Population (aus der unsere Stichprobe von 189 Kunden gezogen wurde) Null ist. Dies unterstützt die Alternativhypothese, dass der tatsächliche Wert von Somers' D für die Population ungleich Null ist.