Verdelingsvrije statistiek: verschil tussen versies

625 bytes toegevoegd ,  17 jaar geleden
opnieuw geformuleerd; kopjes
kGeen bewerkingssamenvatting
(opnieuw geformuleerd; kopjes)
De '''niet-parametrische methode''' is een [[statistiek|statistische]] methode waarvan de naam bijzonder slecht is gekozen. Het is namelijk een methode waar best parameters in mogen voorkomen, maar waar geen aanname ten aanzien van de vorm van de [[verdelingsfunctie|waarschijnlijkheidsverdeling]] bij gemaakt wordt. Dit is een vrij uitzonderlijke zaak omdat bij de meeste statistische methodes eerst zo'n aanname gemaakt wordt: men gaat er meestal van uit dat de willekeurige variabelen die men tot onderwerp van de methode maakt bijvoorbeeld een [[normale verdeling|normaalverdeling]] bezitten.
 
De term 'niet-parametrische methode' is een slechte vertaling uit voornamelijk Engelstalige literatuur ('non parametric method'). In het Nederlands is de officiële aanduiding beduidend accurater: '''[[verdelingsvrije methode]]'''. (Zie [http://europa.eu.int/en/comm/eurostat/research/isi/concepts/concept01999.htm].)
 
==Voor- en nadelen==
Nu is het in de natuurwetenschap inderdaad vrij vaak zo dat herhaaldelijk gemeten grootheden een normale verdeling bezitten. Dit is een direct gevolg van de [[centrale limiet stelling]]. Omdat een meting al gauw ergens een gemiddelde over voorstelt (bijvoorbeeld een gemiddelde over alle moleculen in het monster of alle fotonen in de straal) is er een drijvende kracht die normaliteit bevordert. Dat wil echter niet zeggen dat ''alle'' metingen ook inderdaad normaal verdeeld zijn. Er zijn voorbeelden te over waar dit niet zo is. Het vervelende is dat dat alleen vast te stellen is als er een vrij grote hoeveelheid data is. Vaak is het gewoon te duur of niet mogelijk om zo veel te meten. Bij twijfel over het normaalgedrag zou het dus bijzonder wenselijk zijn om methoden te hebben die goed blijven functioneren ook als de data niet normaal zijn. Dit zijn de verdelingsvrije methoden.
Het voordeel van verdelingsvrije methoden is, dat ze breder toepasbaar zijn dan parametrische methoden. Parametrische methoden zijn alleen toepasbaar als aan twee voorwaarden is voldaan:
* men kent de verdelingsfunctie van de grootheid. Om de verdelingsfunctie van een grootheid te bepalen heeft men echter een vrij grote hoeveelheid data nodig. Vaak is het gewoon te duur of niet mogelijk om zo veel te meten.
* men beschikt over een statistische toets voor die verdeling.
 
Nu is het in de natuurwetenschap inderdaad vrij vaak zo dat herhaaldelijk gemeten grootheden een normale verdeling bezitten. Dit is een direct gevolg van de [[centrale limiet stelling]]. Omdat een meting al gauw ergens een gemiddelde over voorstelt (bijvoorbeeld een gemiddelde over alle moleculen in het monster of alle fotonen in de straal) is er een drijvende kracht die normaliteit bevordert. DatIn wildie echtergevallen niet zeggen dat ''alle'' metingen ook inderdaad normaal verdeeld zijn. Er zijn voorbeelden te over waar dit niet zo is. Het vervelende is dat dat alleen vast te stellen is als erkan een vrijparametrische grotemethode hoeveelheidtoegepast data isworden. Vaak is het gewoon te duur of niet mogelijk om zo veel te meten. Bij twijfel over het normaalgedrag zou het dus bijzonder wenselijk zijn om methoden te hebben die goed blijven functioneren ook als de data niet normaal zijn. Dit zijn de verdelingsvrije methoden.
Kenmerkend voor verdelingsvrije methoden is dat niet de meetwaarden zelf worden gebruikt maar een afgeleide daarvan. Een voorbeeld is het bepalen van correlatie tussen paren van gemeten grootheden. Een verdelingsvrije methode is de rangcorrelatietoets van Spearman. Hierbij worden de gemeten waarden omgezet naar rangnummers waarna wordt getoetst of die rangnummers correleren. De feitelijke meetwaarden, en dus ook hun kansverdeling, heeft daarom geen invloed op de uitkomst van de toets. Een nadeel van verdelingsvrije methoden is dat deze minder efficiënt zijn omdat ze een deel van de informatie verwaarlozen. Indien de verdeling onbekend is, of er geen toets bestaat voor de betreffende verdeling, is men echter aangewezen op verdelingsvrije methoden.
 
AndereEen voorbeeldennadeel van verdelingsvrije toetsenmethoden is dat deze minder efficiënt zijn: omdat ze een deel van de informatie verwaarlozen.
 
Bij twijfel over het normaalgedrag zou het dus bijzonder wenselijk zijn om methoden te hebben die goed blijven functioneren ook als de data niet normaal zijn. Dit zijn de verdelingsvrije methoden.
* De toets van Wilcoxon, oftewel de Mann-Whitney toets
 
* De "runs" toets van Wald-Wolfowitz
==Kenmerk van verdelingsvrije methoden==
* De tekentoets (En: sign test)
Kenmerkend voor verdelingsvrije methoden is dat niet de meetwaarden zelf worden gebruikt maar een afgeleide daarvan. Een voorbeeld is het bepalen van correlatie tussen paren van gemeten grootheden. Een verdelingsvrije methode is de [[rangcorrelatietoets van Spearman]]. Hierbij worden de gemeten waarden omgezet naar rangnummers waarna wordt getoetst of die rangnummers correleren. De feitelijke meetwaarden, en dus ook hun kansverdeling, heeft daarom geen invloed op de uitkomst van de toets. Een nadeel van verdelingsvrije methoden is dat deze minder efficiënt zijn omdat ze een deel van de informatie verwaarlozen. Indien de verdeling onbekend is, of er geen toets bestaat voor de betreffende verdeling, is men echter aangewezen op verdelingsvrije methoden.
* De symmetrietoets van Wilcoxon.
 
==Voorbeelden==
 
Voorbeelden van verdelingsvrije toetsen zijn:
* De rangcorrelatietoets van Spearman, die hiervoor als voorbeeld genoemd is
* De [[toets van Wilcoxon]], oftewel de [[Mann-Whitney toets]]
* De "runs" toets van [[Wald-Wolfowitz]]
* De [[tekentoets]] (En: sign test)
* De [[symmetrietoets van Wilcoxon]].
 
===Tekentoets===
De tekentoets of teken test wordt gebruikt voor het vergelijken van twee samples metingen, gemeten met een verschillende methode. De metingen van beide methodes worden van elkaar afgetrokken, met andere woorden meting 1 van methode 1 - meting 1 van methode 2 enzenzovoort.
 
De tekentoets of teken test wordt gebruikt voor het vergelijken van twee samples metingen, gemeten met een verschillende methode. De metingen van beide methodes worden van elkaar afgetrokken, met andere woorden meting 1 van methode 1 - meting 1 van methode 2 enz.
Hiervan worden enkel de tekens behouden, plus of min. Het aantal plussen en het aantal minnen wordt geteld. Het kleinste getal van deze twee kan dan met behulp van een tabel aantonen of de verdeling van plussen en minnen random is.
De Wilcoxon test is eigenlijk een verbetering van de evenvoudige teken test. Deze test houdt ook rekening met de grootte van het verschil tussen beide meetmethoden.
 
===Runs test===
De runs test gaat enkel kijken naar de tekens. Stel een opeenvolging van volgende tekens:
De run test kijkt of er een significante trend is te zien in een reeks meetwaarden. Evenals bij de tekentoets, wordt alleen naar de tekens gekeken, waarbij + staat voor een toename en - voor een afname van de meetwaarde ten opzichte van de vorige.
++-+---+-
 
Hierbij kunnen we 6 groepen van tekens onderscheiden, er wordt 5 keer van teken gewisseld. In een tabel kan dan worden nagegaan voor een bepaald aantal + (in dit geval 4) en een bepaald aantal - (in dit geval 5) tussen welke waarden het aantal groepen moet liggen om random te zijn.
De runs test gaat enkel kijken naar de tekens. Stel een opeenvolging van volgende tekens:
Dit aantal groepen mag niet te klein zijn:
++-+---+-
als je bvb. hebt: ++++----- dan is de verdeling niet random
Hierbij kunnen we 6 groepen van tekens onderscheiden, er wordt 5 keer van teken gewisseld. In een tabel kan dan worden nagegaan voor een bepaald aantal + (in dit geval 4) en een bepaald aantal - (in dit geval 5) tussen welke waarden het aantal groepen moet liggen om random te zijn.
Maar het aantal groepen mag ook niet te groot zijn:
 
-+-+-+-+- is ook zeker niet random
De reeks wordt als random beschouwd, indien het aantal groepen niet te klein en niet te groot is.
 
Als je bijvoorbeeld hebt:
++++-----
als je bvb. hebt: ++++----- dan is de verdeling niet random
 
Als je echter de volgende reeks hebt:
-+-+-+-+-
-+-+-+-+-is isdeze ook zeker niet random
 
 
20.427

bewerkingen