scipy.stats.

kstat#

scipy.stats.kstat(data, n=2, *, axis=None, nan_policy='propagate', keepdims=False)[Quelle]#

Gibt die n-te k-Statistik zurück (1<=n<=4 bisher).

Die n-te k-Statistik k_n ist der eindeutige symmetrische, unverzerrte Schätzer für die n-te Kumulante \(\kappa_n\) [1] [2].

Parameter:

dataarray_like

Eingabearray.

nint, {1, 2, 3, 4}, optional

Standardmäßig gleich 2.

axisint oder None, Standard: None

Wenn es sich um eine ganze Zahl handelt, ist dies die Achse des Eingabearrays, entlang der die Statistik berechnet wird. Die Statistik jedes Achsen-Slices (z. B. Zeile) der Eingabe erscheint dann in einem entsprechenden Element der Ausgabe. Wenn None, wird die Eingabe vor der Berechnung der Statistik geglättet.

nan_policy{‘propagate’, ‘omit’, ‘raise’}

Definiert, wie Eingabe-NaNs behandelt werden.

propagate: Wenn ein NaN in der Achsen-Slice (z. B. Zeile) vorhanden ist, entlang der die Statistik berechnet wird, wird der entsprechende Eintrag der Ausgabe NaN sein.
omit: NaNs werden bei der Berechnung weggelassen. Wenn im Achsen-Slice, entlang dem die Statistik berechnet wird, nicht genügend Daten verbleiben, wird der entsprechende Eintrag der Ausgabe NaN sein.
raise: Wenn ein NaN vorhanden ist, wird ein ValueError ausgelöst.

keepdimsbool, Standard: False

Wenn dies auf True gesetzt ist, bleiben die reduzierten Achsen im Ergebnis als Dimensionen mit der Größe eins erhalten. Mit dieser Option wird das Ergebnis korrekt gegen das Eingabearray gestreut (broadcasted).

Rückgabe:

kstatfloat: Die n-te k-Statistik.

Siehe auch

kstatvar: Gibt einen unverzerrten Schätzer für die Varianz der k-Statistik zurück
moment: Gibt das n-te zentrale Moment um den Mittelwert für eine Stichprobe zurück.

Hinweise

Für eine Stichprobengröße \(n\) sind die ersten paar k-Statistiken gegeben durch

\[\begin{split}k_1 &= \frac{S_1}{n}, \\ k_2 &= \frac{nS_2 - S_1^2}{n(n-1)}, \\ k_3 &= \frac{2S_1^3 - 3nS_1S_2 + n^2S_3}{n(n-1)(n-2)}, \\ k_4 &= \frac{-6S_1^4 + 12nS_1^2S_2 - 3n(n-1)S_2^2 - 4n(n+1)S_1S_3 + n^2(n+1)S_4}{n (n-1)(n-2)(n-3)},\end{split}\]

wo

\[S_r \equiv \sum_{i=1}^n X_i^r,\]

und \(X_i\) ist der \(i\)-te Datenpunkt.

Seit SciPy 1.9 werden np.matrix-Eingaben (für neuen Code nicht empfohlen) vor der Berechnung in np.ndarray konvertiert. In diesem Fall ist die Ausgabe eine Skalar- oder np.ndarray mit geeigneter Form anstelle eines 2D-np.matrix. Ebenso werden, während maskierte Elemente von Masked Arrays ignoriert werden, die Ausgabe eine Skalar- oder np.ndarray anstelle eines Masked Arrays mit mask=False sein.

Referenzen

[1]

http://mathworld.wolfram.com/k-Statistic.html

[2]

http://mathworld.wolfram.com/Cumulant.html

Beispiele

>>> from scipy import stats
>>> from numpy.random import default_rng
>>> rng = default_rng()

Mit zunehmender Stichprobengröße konvergieren das n-te Moment und die n-te k-Statistik zur selben Zahl (obwohl sie nicht identisch sind). Im Fall der Normalverteilung konvergieren sie gegen Null.

>>> for i in range(2,8):
...     x = rng.normal(size=10**i)
...     m, k = stats.moment(x, 3), stats.kstat(x, 3)
...     print(f"{i=}: {m=:.3g}, {k=:.3g}, {(m-k)=:.3g}")
i=2: m=-0.631, k=-0.651, (m-k)=0.0194  # random
i=3: m=0.0282, k=0.0283, (m-k)=-8.49e-05
i=4: m=-0.0454, k=-0.0454, (m-k)=1.36e-05
i=6: m=7.53e-05, k=7.53e-05, (m-k)=-2.26e-09
i=7: m=0.00166, k=0.00166, (m-k)=-4.99e-09
i=8: m=-2.88e-06 k=-2.88e-06, (m-k)=8.63e-13