Beispiele zur Abschätzung der maximalen Wahrscheinlichkeit

Angenommen, wir haben eine Zufallsstichprobe aus einer interessierenden Population. Wir haben möglicherweise ein theoretisches Modell für die Verteilung der Bevölkerung. Es kann jedoch verschiedene Populationsparameter geben, deren Werte uns nicht bekannt sind. Die Schätzung der maximalen Wahrscheinlichkeit ist eine Möglichkeit, diese unbekannten Parameter zu bestimmen. 

Die Grundidee hinter der Maximum-Likelihood-Schätzung besteht darin, die Werte dieser unbekannten Parameter zu bestimmen. Wir tun dies so, dass eine zugehörige gemeinsame Wahrscheinlichkeitsdichtefunktion oder Wahrscheinlichkeitsmassenfunktion maximiert wird. Wir werden dies im Folgenden detaillierter sehen. Anschließend werden einige Beispiele für die Schätzung der maximalen Wahrscheinlichkeit berechnet.

Schritte zur Schätzung der maximalen Wahrscheinlichkeit

Die obige Diskussion kann durch die folgenden Schritte zusammengefasst werden:

  1. Beginnen Sie mit einer Stichprobe unabhängiger Zufallsvariablen X1, X2,… Xn aus einer gemeinsamen Verteilung mit jeweils einer Wahrscheinlichkeitsdichtefunktion f (x; θ1,… Θk). Die Thetas sind unbekannte Parameter.
  2. Da unsere Stichprobe unabhängig ist, wird die Wahrscheinlichkeit, die von uns beobachtete Stichprobe zu erhalten, durch Multiplikation unserer Wahrscheinlichkeiten ermittelt. Dies gibt uns eine Wahrscheinlichkeitsfunktion L (θ1,… Θk) = F (x1 ; θ1,… Θk) f (x2 ; θ1,… Θk)… F (xn ; θ1,… Θk) = Π f (xich ; θ1,… Θk).
  3. Als nächstes verwenden wir Calculus, um die Werte von Theta zu finden, die unsere Wahrscheinlichkeitsfunktion L maximieren. 
  4. Insbesondere differenzieren wir die Wahrscheinlichkeitsfunktion L in Bezug auf θ, wenn es einen einzelnen Parameter gibt. Wenn es mehrere Parameter gibt, berechnen wir partielle Ableitungen von L in Bezug auf jeden der Theta-Parameter.
  5. Um den Maximierungsprozess fortzusetzen, setzen Sie die Ableitung von L (oder Teilableitungen) auf Null und lösen Sie nach Theta auf.
  6. Wir können dann andere Techniken (wie einen zweiten Ableitungstest) verwenden, um zu überprüfen, ob wir ein Maximum für unsere Wahrscheinlichkeitsfunktion gefunden haben.

Beispiel

Angenommen, wir haben eine Packung Samen, von denen jeder eine konstante Wahrscheinlichkeit hat p des Erfolgs der Keimung. Wir pflanzen n von diesen und zählen die Anzahl derer, die sprießen. Angenommen, jeder Samen sprießt unabhängig von den anderen. Wie bestimmen wir den Maximum Likelihood Estimator des Parameters? p?

Zunächst stellen wir fest, dass jeder Samen von einer Bernoulli-Verteilung mit dem Erfolg von modelliert wird p. Wir lassen X entweder 0 oder 1 sein und die Wahrscheinlichkeitsmassenfunktion für einen einzelnen Samen ist f(x; p ) = px (1 - p)1 - x

Unsere Stichprobe besteht aus n  anders Xich, Jedes mit hat eine Bernoulli-Verteilung. Die Samen, die sprießen, haben Xich = 1 und die Samen, die nicht keimen, haben Xich = 0. 

Die Wahrscheinlichkeitsfunktion ist gegeben durch:

L ( p ) = Π pxich (1 - p)1 - xich

Wir sehen, dass es möglich ist, die Wahrscheinlichkeitsfunktion unter Verwendung der Gesetze der Exponenten umzuschreiben. 

L ( p ) = pΣ xich (1 - p)n - Σ xich

Als nächstes differenzieren wir diese Funktion in Bezug auf p. Wir gehen davon aus, dass die Werte für alle Xich sind bekannt und daher konstant. Um die Wahrscheinlichkeitsfunktion zu unterscheiden, müssen wir die Produktregel zusammen mit der Potenzregel verwenden:

L '( p ) = Σ xichp-1 + Σ xich (1 - p)n - Σ xich - (n - Σ xich ) pΣ xich (1 - p)n-1 - Σ xich

Wir schreiben einige der negativen Exponenten um und haben:

L '( p ) = (1 /p) Σ xichpΣ xich (1 - p)n - Σ xich - 1 / (1 - p) (n - Σ xich ) pΣ xich (1 - p)n - Σ xich

= [(1 /p) Σ xich - 1 / (1 - p) (n - Σ xich)]ichpΣ xich (1 - p)n - Σ xich

Um den Maximierungsprozess fortzusetzen, setzen wir diese Ableitung auf Null und lösen nach p:

0 = [(1 /p) Σ xich - 1 / (1 - p) (n - Σ xich)]ichpΣ xich (1 - p)n - Σ xich

Schon seit p und 1- p) sind ungleich Null das haben wir

0 = (1 /p) Σ xich - 1 / (1 - p) (n - Σ xich).

Multiplizieren Sie beide Seiten der Gleichung mit p(1- p) gibt uns:

0 = (1 - p) Σ xich - p (n - Σ xich).

Wir erweitern die rechte Seite und sehen:

0 = Σ xich - p Σ xich - p n + pΣ xich = Σ xich - p n.

Also Σ xich = p n und (1 / n) ≤ xich = p. Dies bedeutet, dass der Maximum Likelihood Estimator von p ist ein Stichprobenmittelwert. Insbesondere ist dies der Probenanteil der Samen, die gekeimt haben. Dies entspricht genau dem, was uns die Intuition sagen würde. Um den Anteil der Samen zu bestimmen, die keimen, betrachten Sie zunächst eine Stichprobe aus der interessierenden Population.

Änderungen an den Schritten

An der obigen Liste der Schritte wurden einige Änderungen vorgenommen. Zum Beispiel lohnt es sich, wie wir oben gesehen haben, normalerweise, etwas Zeit mit Algebra zu verbringen, um den Ausdruck der Wahrscheinlichkeitsfunktion zu vereinfachen. Der Grund dafür ist, die Differenzierung einfacher durchzuführen.

Eine weitere Änderung an der obigen Liste von Schritten besteht darin, natürliche Logarithmen zu berücksichtigen. Das Maximum für die Funktion L wird an der gleichen Stelle auftreten wie für den natürlichen Logarithmus von L. Somit ist die Maximierung von ln L äquivalent zur Maximierung der Funktion L.

Aufgrund der Exponentialfunktionen in L vereinfacht die Verwendung des natürlichen Logarithmus von L einige unserer Arbeiten erheblich.

Beispiel

Wir sehen, wie der natürliche Logarithmus verwendet wird, indem wir das obige Beispiel erneut betrachten. Wir beginnen mit der Wahrscheinlichkeitsfunktion:

L ( p ) = pΣ xich (1 - p)n - Σ xich .

Wir verwenden dann unsere Logarithmusgesetze und sehen, dass:

R ( p ) = ln L ( p ) = Σ xich ln p + (n - Σ xich) ln (1 - p).

Wir sehen bereits, dass die Ableitung viel einfacher zu berechnen ist:

R '( p ) = (1 /p) Σ xich - 1 / (1 - p) (n - Σ xich) .

Nach wie vor setzen wir diese Ableitung auf Null und multiplizieren beide Seiten mit p (1 - p):

0 = (1- p ) Σ xich p(n - Σ xich) .

Wir lösen für p und finden Sie das gleiche Ergebnis wie zuvor.

Die Verwendung des natürlichen Logarithmus von L (p) ist auf andere Weise hilfreich. Es ist viel einfacher, eine zweite Ableitung von R (p) zu berechnen, um sicherzustellen, dass wir tatsächlich ein Maximum am Punkt (1 / n) n x habenich = p.

Beispiel

Angenommen, wir haben eine Zufallsstichprobe X1, X2,… Xn aus einer Population, die wir mit einer Exponentialverteilung modellieren. Die Wahrscheinlichkeitsdichtefunktion für eine Zufallsvariable hat die Form f( x ) = θ-1 e -x/ θ

Die Wahrscheinlichkeitsfunktion ist durch die gemeinsame Wahrscheinlichkeitsdichtefunktion gegeben. Dies ist ein Produkt mehrerer dieser Dichtefunktionen:

L (θ) = Π θ-1 e -xich/ θ = Θ-n e xich/ θ

Auch hier ist es hilfreich, den natürlichen Logarithmus der Wahrscheinlichkeitsfunktion zu berücksichtigen. Die Differenzierung erfordert weniger Arbeit als die Differenzierung der Wahrscheinlichkeitsfunktion:

R (θ) = ln L (θ) = ln [θ-n e xich/ θ]

Wir verwenden unsere Logarithmengesetze und erhalten:

R (& thgr;) = ln L (& thgr;) = - n ln θ + -Σxich/ θ

Wir unterscheiden in Bezug auf θ und haben:

R '(& thgr;) = - n / θ + Σxich/ θ2

Setzen Sie diese Ableitung auf Null und wir sehen, dass:

0 = - n / θ + Σxich/ θ2.

Multiplizieren Sie beide Seiten mit θ2 und das Ergebnis ist:

0 = - n θ + Σxich.

Verwenden Sie nun Algebra, um nach θ zu lösen:

θ = (1 / n) Σxich.

Wir sehen daraus, dass der Stichprobenmittelwert die Wahrscheinlichkeitsfunktion maximiert. Der zu unserem Modell passende Parameter θ sollte einfach der Mittelwert aller unserer Beobachtungen sein.

Anschlüsse

Es gibt andere Arten von Schätzern. Eine alternative Art der Schätzung wird als unverzerrter Schätzer bezeichnet. Für diesen Typ müssen wir den erwarteten Wert unserer Statistik berechnen und feststellen, ob er mit einem entsprechenden Parameter übereinstimmt.