Meest aannemelijke schatter
De methode van de grootste aannemelijkheid of maximum-likelihood-method is in de statistiek een schattingsmethode die als schatting van een parameter die waarde kiest, waarvoor de aannemelijkheidsfunctie maximaal is. De schatter heet meest aannemelijke schatter, of maximum-likelihood-schatter.
De schatting wordt daarom de meest aannemelijke schatting genoemd. Het is de parameterwaarde die gezien de steekproefuitkomst het meest aannemelijk is. Hoe aannemelijk een parameterwaarde is, wordt afgemeten aan de kans (of kansdichtheid) om bij die waarde van de parameter de steekproefuitkomst te vinden. Een voorbeeld zal dit verduidelijken.
Voorbeelden
bewerkenEen vreemde munt ziet er in het geheel niet mooi symmetrisch uit. Wat zal bij werpen de kans op kop zijn? We gooien 10 keer met de munt en vinden 3 keer kop. De kans op deze uitkomst is nog een functie van ; en wel is volgens de binomiale verdeling:
De functie is de aannemelijkheidsfunctie. Hoe groter de kans op de gebeurtenis die plaatsvond, hier de uitkomst , is als functie van , hoe 'aannemelijker' het ons lijkt dat die kans de werkelijke kans op kop was. We zoeken nu de waarde van die het 'meest aannemelijk' is, dus waar de aannemelijkheidsfunctie maximaal is. We zien gemakkelijk dat en dat verder . Het maximum van wordt (met enige wiskunde) gevonden bij . Dus de meest aannemelijke schatting van is 0,3.
De uitkomst van een aselecte steekproef is afkomstig uit een normale verdeling met parameters en . De aannemelijkheidsfunctie is dus:
Voor het bepalen van het maximum kan men ook de logaritme nemen:
De partiële afgeleiden naar en zijn:
en
Stelt men deze uitdrukkingen gelijk aan 0, dan krijgt men als oplossing:
en
Omdat inderdaad voor deze waarden maximaal is, zijn en dus de meest aannemelijke schatters van en .
Geschiedenis
bewerkenDe methode van de grootste aannemelijkheid werd gepropageerd en geanalyseerd - met overigens vruchteloze pogingen voor een bewijs - door Ronald Fisher tussen 1912 en 1922.[1] Wel was de methode al eerder gebruikt door Gauss, Laplace, Thiele en Edgeworth.[2]
De methode is uiteindelijk verder dan heuristische rechtvaardiging gekomen door een in 1938 bewijs gepubliceerd van Samuel S. Wilks, nu bekend als de Stelling van Wilks.[3] De stelling laat zien dat de fout in de logaritme van de aannemelijkheidswaarden voor schattingen uit meerdere onafhankelijke steekproeven chi-kwadraatverdeeld is, waardoor het mogelijk is een betrouwbaarheidsgebied te bepalen rond de schattingen. Ironisch genoeg hangt het enige moeilijke deel van het bewijs af van de verwachtingswaarde van de Fisher informatiematrix, die wordt gegeven door een stelling van Fisher.[4] Wilks bleef gedurende zijn leven voortdurend de algemeenheid van de stelling verbeteren, en zijn meest algemene bewijs is gepubliceerd in 1962.[5]
Referenties
bewerken- ↑ Pfanzagl, Johann, with the assistance of R. Hamböker (1994). Parametric statistical theory. Walter de Gruyter, Berlin, DE, 207–208. ISBN 3-11-013863-8.
- ↑ Edgeworth (september 1908) en Edgeworth (december 1908)
- ↑ Wilks, S. S. (1938). The Large-Sample Distribution of the Likelihood Ratio for Testing Composite Hypotheses. Annals of Mathematical Statistics, 9: 60–62. doi:10.1214/aoms/1177732360.
- ↑ Owen, Art B. (2001). Empirical Likelihood. London: Chapman & Hall/Boca Raton, FL: CRC Press. ISBN 978-1584880714.
- ↑ Wilks, Samuel S. (1962) Mathematical Statistics. New York: John Wiley & Sons. ISBN 978-0471946502.