Diskrete statistische Verteilungen#
Überblick#
Diskrete Zufallsvariablen nehmen nur eine abzählbare Anzahl von Werten an. Die gebräuchlichsten Verteilungen sind in SciPy enthalten und werden in diesem Dokument beschrieben. Jede diskrete Verteilung kann einen zusätzlichen ganzzahligen Parameter annehmen: \(L.\) Die Beziehung zwischen der allgemeinen Verteilung \(p\) und der Standardverteilung \(p_{0}\) ist
was eine Verschiebung der Eingabe ermöglicht. Wenn ein Verteilungsgenerator initialisiert wird, kann die diskrete Verteilung entweder den Anfangs- und Endwert (Ganzzahl) \(a\) und \(b\) angeben, wobei gelten muss
in diesem Fall wird angenommen, dass die Dichtefunktion auf den ganzen Zahlen \({a+mk\leq b}\) angegeben ist, wobei \({k}\) eine nicht-negative ganze Zahl ist ( \({0,1,2,\ldots}\) ) und \({m}\) ein positiver ganzzahliger Multiplikator ist. Alternativ können die beiden Listen \({x_{k}}\) und \({p\left(x_{k}\right)}\) direkt angegeben werden, in welchem Fall intern ein Wörterbuch eingerichtet wird, um Wahrscheinlichkeiten auszuwerten und Zufallsvariablen zu generieren.
Wahrscheinlichkeitsmassenfunktion (PMF)#
Die Wahrscheinlichkeitsmassenfunktion einer Zufallsvariablen X ist definiert als die Wahrscheinlichkeit, dass die Zufallsvariable einen bestimmten Wert annimmt.
Diese wird manchmal auch als Wahrscheinlichkeitsdichtefunktion bezeichnet, obwohl technisch gesehen
die Wahrscheinlichkeitsdichtefunktion für eine diskrete Verteilung ist [1] .
Kumulative Verteilungsfunktion (CDF)#
Die kumulative Verteilungsfunktion ist
und es ist auch nützlich, sie berechnen zu können. Beachten Sie, dass
Überlebensfunktion#
Die Überlebensfunktion ist einfach
die Wahrscheinlichkeit, dass die Zufallsvariable strikt größer als \({k}\) ist.
Perzentilpunktfunktion (inverse CDF)#
Die Perzentilpunktfunktion ist die Umkehrfunktion der kumulativen Verteilungsfunktion und ist
für diskrete Verteilungen muss dies für Fälle modifiziert werden, in denen kein \({x_{k}}\) existiert, so dass \({F\left(x_{k}\right)=q.}\) In diesen Fällen wählen wir \({G\left(q\right)}\) als den kleinsten Wert \({x_{k}=G\left(q\right)}\), für den \({F\left(x_{k}\right)\geq q}\) gilt. Wenn \({q=0}\) ist, definieren wir \({G\left(0\right)=a-1}\). Diese Definition ermöglicht es, Zufallsvariablen auf die gleiche Weise wie bei kontinuierlichen Zufallsvariablen zu definieren, indem die inverse CDF auf einer Gleichverteilung verwendet wird, um Zufallsvariablen zu generieren.
Inverse Überlebensfunktion#
Die inverse Überlebensfunktion ist die Umkehrfunktion der Überlebensfunktion
und ist somit die kleinste nicht-negative ganze Zahl \({k}\), für die \({F\left(k\right)\geq1-\alpha}\) gilt, oder die kleinste nicht-negative ganze Zahl \({k}\), für die \({S\left(k\right)\leq\alpha.}\)
Gefahrenfunktionen#
Falls gewünscht, können die Gefahrenfunktion und die kumulative Gefahrenfunktion wie folgt definiert werden:
und
Momente#
Nichtzentrale Momente werden mithilfe der Dichtefunktion definiert
Zentrale Momente werden ähnlich berechnet \(\mu=\mu_{1}^{\prime}\)
Der Mittelwert ist das erste Moment
die Varianz ist das zweite zentrale Moment
Die Schiefe ist definiert als
während die (Fisher-)Kurtosis ist
sodass eine Normalverteilung eine Kurtosis von Null hat.
Momentenerzeugende Funktion#
Die momentenerzeugende Funktion ist definiert als
Momente werden als Ableitungen der momentenerzeugenden Funktion, ausgewertet bei \({0.}\), ermittelt.
Anpassung von Daten#
Um Daten an eine Verteilung anzupassen, ist die Maximierung der Likelihood-Funktion üblich. Alternativ haben einige Verteilungen bekannte Schätzer mit minimaler Varianz, die unverzerrt sind. Diese werden standardmäßig gewählt, aber die Likelihood-Funktion wird immer zur Minimierung zur Verfügung stehen.
Wenn \({f_{i}\left(k;\boldsymbol{\theta}\right)}\) die Dichtefunktion einer Zufallsvariablen ist, wobei \(\boldsymbol{\theta}\) ein Vektor von Parametern ist ( *z. B.* \({L}\) und \({S}\) ), dann ist für eine Sammlung von \({N}\) unabhängigen Stichproben aus dieser Verteilung die gemeinsame Verteilung des Zufallsvektors \(\mathbf{k}\)
Die Maximum-Likelihood-Schätzung der Parameter \(\boldsymbol{\theta}\) sind die Parameter, die diese Funktion maximieren, wobei \(\mathbf{x}\) fest und durch die Daten gegeben ist.
Wobei
Standardnotation für den Mittelwert#
Wir werden verwenden
wobei \({N}\) aus dem Kontext ersichtlich sein sollte.
Kombinationen#
Beachten Sie, dass
und besondere Fälle hat von
und
Wenn \({n<0}\) oder \({k<0}\) oder \({k>n}\) definieren wir \(\left(\begin{array}{c} n\\ k\end{array}\right)=0\)
Diskrete Verteilungen in scipy.stats#
- Bernoulli-Verteilung
- Beta-Binomial-Verteilung
- Beta-Negativ-Binomial-Verteilung
- Binomialverteilung
- Boltzmann (abgeschnittene Planck)-Verteilung
- Planck (diskrete Exponential)-Verteilung
- Poisson-Verteilung
- Geometrische Verteilung
- Negativ-Binomialverteilung
- Hypergeometrische Verteilung
- Nichtzentrale hypergeometrische Verteilung nach Fisher
- Nichtzentrale hypergeometrische Verteilung nach Wallenius
- Negative hypergeometrische Verteilung
- Zipf (Zeta)-Verteilung
- Zipfian-Verteilung
- Logarithmische (Log-Reihe, Reihe)-Verteilung
- Diskrete Gleichverteilung (randint)-Verteilung
- Diskrete Laplacesche Verteilung
- Yule-Simon-Verteilung