chisquare#
- scipy.stats.mstats.chisquare(f_obs, f_exp=None, ddof=0, axis=0, *, sum_check=True, nan_policy='propagate', keepdims=False)[Quelle]#
Führt den Chi-Quadrat-Test nach Pearson durch.
Der Chi-Quadrat-Test nach Pearson [1] ist ein Goodness-of-fit-Test für eine multinomiale Verteilung mit gegebenen Wahrscheinlichkeiten; das heißt, er bewertet die Nullhypothese, dass die beobachteten Häufigkeiten (Zählungen) durch unabhängige Stichproben von N Beobachtungen aus einer kategorialen Verteilung mit gegebenen erwarteten Häufigkeiten erzielt werden.
- Parameter:
- f_obsarray_like
Beobachtete Häufigkeiten in jeder Kategorie.
- f_exparray_like, optional
Erwartete Häufigkeiten in jeder Kategorie. Standardmäßig wird angenommen, dass die Kategorien gleich wahrscheinlich sind.
- ddofint, optional
„Delta Freiheitsgrade“: Anpassung der Freiheitsgrade für den p-Wert. Der p-Wert wird unter Verwendung einer Chi-Quadrat-Verteilung mit
k - 1 - ddofFreiheitsgraden berechnet, wobeikdie Anzahl der Kategorien ist. Der Standardwert von ddof ist 0.- axisint oder None, Standard: 0
Wenn es sich um eine ganze Zahl handelt, ist dies die Achse des Eingabearrays, entlang der die Statistik berechnet wird. Die Statistik jedes Achsen-Slices (z. B. Zeile) der Eingabe erscheint dann in einem entsprechenden Element der Ausgabe. Wenn
None, wird die Eingabe vor der Berechnung der Statistik geglättet.- sum_checkbool, optional
Ob eine Prüfung durchgeführt werden soll, dass
sum(f_obs) - sum(f_exp) == 0. Wenn True (Standard), wird ein Fehler ausgelöst, wenn die relative Differenz die Quadratwurzel der Präzision des Datentyps überschreitet. Siehe Hinweise für Begründungen und mögliche Ausnahmen.- nan_policy{‘propagate’, ‘omit’, ‘raise’}
Definiert, wie Eingabe-NaNs behandelt werden.
propagate: Wenn ein NaN in der Achsen-Slice (z. B. Zeile) vorhanden ist, entlang der die Statistik berechnet wird, wird der entsprechende Eintrag der Ausgabe NaN sein.omit: NaNs werden bei der Berechnung weggelassen. Wenn im Achsen-Slice, entlang dem die Statistik berechnet wird, nicht genügend Daten verbleiben, wird der entsprechende Eintrag der Ausgabe NaN sein.raise: Wenn ein NaN vorhanden ist, wird einValueErrorausgelöst.
- keepdimsbool, Standard: False
Wenn dies auf True gesetzt ist, bleiben die reduzierten Achsen im Ergebnis als Dimensionen mit der Größe eins erhalten. Mit dieser Option wird das Ergebnis korrekt gegen das Eingabearray gestreut (broadcasted).
- Rückgabe:
- res: Power_divergenceResult
Ein Objekt, das Attribute enthält
- statisticfloat oder ndarray
Die Chi-Quadrat-Teststatistik. Der Wert ist eine Gleitkommazahl, wenn axis None ist oder f_obs und f_exp 1-D sind.
- pvaluefloat oder ndarray
Der p-Wert des Tests. Der Wert ist eine Gleitkommazahl, wenn ddof und das Ergebnisattribut statistic Skalare sind.
Siehe auch
scipy.stats.power_divergencescipy.stats.fisher_exactFisher-Exakttest für eine 2x2-Kontingenztafel.
scipy.stats.barnard_exactEin unbedingter exakter Test. Eine Alternative zum Chi-Quadrat-Test für kleine Stichprobengrößen.
- Chi-Quadrat-Test
Erweitertes Beispiel
Hinweise
Dieser Test ist ungültig, wenn die beobachteten oder erwarteten Häufigkeiten in jeder Kategorie zu klein sind. Eine typische Regel ist, dass alle beobachteten und erwarteten Häufigkeiten mindestens 5 betragen sollten. Gemäß [2] wird empfohlen, dass die Gesamtzahl der Beobachtungen größer als 13 ist, andernfalls sollten exakte Tests (wie der Barnard's Exact Test) verwendet werden, da sie nicht übermäßig ablehnen.
Die Standard-Freiheitsgrade, k-1, gelten für den Fall, dass keine Parameter der Verteilung geschätzt werden. Wenn p Parameter durch effiziente Maximum-Likelihood-Schätzung geschätzt werden, betragen die korrekten Freiheitsgrade k-1-p. Wenn die Parameter auf eine andere Weise geschätzt werden, können die Freiheitsgrade zwischen k-1-p und k-1 liegen. Es ist jedoch auch möglich, dass die asymptotische Verteilung keine Chi-Quadrat-Verteilung ist, in welchem Fall dieser Test nicht geeignet ist.
Beim Chi-Quadrat-Test nach Pearson müssen die gesamten beobachteten und erwarteten Zählungen übereinstimmen, damit der p-Wert die Wahrscheinlichkeit, einen solch extremen Wert der Statistik unter der Nullhypothese zu beobachten, genau widerspiegelt. Diese Funktion kann verwendet werden, um andere statistische Tests durchzuführen, die nicht erfordern, dass die Gesamtzählungen gleich sind. Um beispielsweise die Nullhypothese zu testen, dass
f_obs[i]Poisson-verteilt mit Erwartungswertf_exp[i]ist, setzen Sieddof=-1undsum_check=False. Dieser Test folgt aus der Tatsache, dass eine Poisson-Zufallsvariable mit Mittelwert und Varianzf_exp[i]annähernd normal mit demselben Mittelwert und derselben Varianz ist; die Chi-Quadrat-Statistik standardisiert, quadriert und summiert die Beobachtungen; und die Summe vonnquadrierten standardnormalen Variablen folgt der Chi-Quadrat-Verteilung mitnFreiheitsgraden.Seit SciPy 1.9 werden
np.matrix-Eingaben (für neuen Code nicht empfohlen) vor der Berechnung innp.ndarraykonvertiert. In diesem Fall ist die Ausgabe eine Skalar- odernp.ndarraymit geeigneter Form anstelle eines 2D-np.matrix. Ebenso werden, während maskierte Elemente von Masked Arrays ignoriert werden, die Ausgabe eine Skalar- odernp.ndarrayanstelle eines Masked Arrays mitmask=Falsesein.chisquarehat experimentelle Unterstützung für Python Array API Standard-kompatible Backends zusätzlich zu NumPy. Bitte erwägen Sie, diese Funktionen zu testen, indem Sie die UmgebungsvariableSCIPY_ARRAY_API=1setzen und CuPy, PyTorch, JAX oder Dask Arrays als Array-Argumente bereitstellen. Die folgenden Kombinationen von Backend und Gerät (oder anderen Fähigkeiten) werden unterstützt.Bibliothek
CPU
GPU
NumPy
✅
n/a
CuPy
n/a
✅
PyTorch
✅
✅
JAX
⚠️ kein JIT
⚠️ kein JIT
Dask
⚠️ berechnet Graph
n/a
Siehe Unterstützung für den Array API Standard für weitere Informationen.
Referenzen
[1]„Pearson’s Chi-squared test“. Wikipedia. https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test
[2]Pearson, Karl. „On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling“, Philosophical Magazine. Series 5. 50 (1900), pp. 157-175.
Beispiele
Wenn nur das obligatorische Argument f_obs angegeben wird, wird angenommen, dass die erwarteten Häufigkeiten gleichmäßig sind und durch den Mittelwert der beobachteten Häufigkeiten gegeben sind.
>>> import numpy as np >>> from scipy.stats import chisquare >>> chisquare([16, 18, 16, 14, 12, 12]) Power_divergenceResult(statistic=2.0, pvalue=0.84914503608460956)
Das optionale Argument f_exp gibt die erwarteten Häufigkeiten an.
>>> chisquare([16, 18, 16, 14, 12, 12], f_exp=[16, 16, 16, 16, 16, 8]) Power_divergenceResult(statistic=3.5, pvalue=0.62338762774958223)
Wenn f_obs 2-dimensional ist, wird der Test standardmäßig für jede Spalte angewendet.
>>> obs = np.array([[16, 18, 16, 14, 12, 12], [32, 24, 16, 28, 20, 24]]).T >>> obs.shape (6, 2) >>> chisquare(obs) Power_divergenceResult(statistic=array([2. , 6.66666667]), pvalue=array([0.84914504, 0.24663415]))
Durch Setzen von
axis=Nonewird der Test auf alle Daten im Array angewendet, was der Anwendung des Tests auf das abgeflachte Array entspricht.>>> chisquare(obs, axis=None) Power_divergenceResult(statistic=23.31034482758621, pvalue=0.015975692534127565) >>> chisquare(obs.ravel()) Power_divergenceResult(statistic=23.310344827586206, pvalue=0.01597569253412758)
ddof ist die Änderung, die an den Standard-Freiheitsgraden vorgenommen wird.
>>> chisquare([16, 18, 16, 14, 12, 12], ddof=1) Power_divergenceResult(statistic=2.0, pvalue=0.7357588823428847)
Die Berechnung der p-Werte erfolgt durch Broadcasting der Chi-Quadrat-Statistik mit ddof.
>>> chisquare([16, 18, 16, 14, 12, 12], ddof=[0, 1, 2]) Power_divergenceResult(statistic=2.0, pvalue=array([0.84914504, 0.73575888, 0.5724067 ]))
f_obs und f_exp werden ebenfalls gebroadcastet. Im Folgenden hat f_obs die Form (6,) und f_exp hat die Form (2, 6), sodass das Ergebnis des Broadcastings von f_obs und f_exp die Form (2, 6) hat. Um die gewünschten Chi-Quadrat-Statistiken zu berechnen, verwenden wir
axis=1>>> chisquare([16, 18, 16, 14, 12, 12], ... f_exp=[[16, 16, 16, 16, 16, 8], [8, 20, 20, 16, 12, 12]], ... axis=1) Power_divergenceResult(statistic=array([3.5 , 9.25]), pvalue=array([0.62338763, 0.09949846]))
Ein detaillierteres Beispiel finden Sie unter Chi-Quadrat-Test.