De wet van Benford beschrijft de frequentieverdeling van het begincijfer van getallen in grote dataverzamelingen waarin een beperkte mate van stochasticiteit optreedt. De wet van Benford werd in 1881 ontdekt door de Amerikaanse wiskundige en astronoom Simon Newcomb, maar kreeg grote bekendheid door de herontdekking en publicaties in 1938 van Frank Benford, een fysicus die zijn hele leven bij het Amerikaanse bedrijf General Electric heeft gewerkt.[1]

Afnemende reeks blauwe balken tegen een lichtgrijze achtergrond.
De verdeling van de eerste cijfers van getallen volgens de wet van Benford. Elke balk stelt een cijfer voor, en de hoogte is het percentage getallen dat met dat cijfer begint.

De wet voor het eerste cijfer van getallen bewerken

In 1938 publiceerde Benford een artikel in een wetenschappelijk tijdschrift,[2] waarin hij het verschijnsel beschrijft dat in veel verzamelingen van getallen uit het normale leven (maar niet allemaal) de meeste van die getallen met een 1 beginnen. Minder getallen beginnen met een 2 en de minste met een 9. Dit wijst erop dat de kans om begincijfer te zijn niet voor alle cijfers van 1 tot en met 9 hetzelfde is. Benford toonde aan dat de kans dat in een reeks getallen een getal met een 1 begint, ongeveer 30% is. De kans dat een getal met een 9 begint, is daarentegen slechts 5%. Deze wetmatigheid is de wet van Benford gaan heten. Wiskundig wordt deze wet uitgedrukt met de volgende kansfunctie die de kansverdeling geeft van eerste cijfer   van een getal. De kans dat   gelijk is aan  , wordt gegeven door:

  voor  

Deze kansfunctie staat in de volgende tabel.

begincijfer 1 2 3 4 5 6 7 8 9
kans (%) 30,1 17,6 12,5 9,7 7,9 6,7 5,8 5,1 4,6

Benford onderzocht enorme hoeveelheden numerieke gegevens, zoals de lengtes van rivieren, de oppervlakten van meren en landerijen, hoogtes van bergen, numerieke fenomenen uit de natuurkunde en scheikunde, wiskundige tafels, getallen uit kranten en tijdschriften, enzovoorts. Daardoor vond hij steeds meer empirisch bewijs voor de juistheid van zijn formule. Een verklaring voor de juistheid van zijn formule kon hij echter niet geven.

Velen hebben later de moeite genomen om grote datasets te onderzoeken op de geldigheid van de wet van Benford. Tegenwoordig vindt dat onderzoek plaats met computers.

Een interessante bron voor onderzoek naar de wet van Benford vormt Plouffes inverter, een database van meer dan 215 miljoen mathematische constanten.

De wet van Benford komt in de praktijk ongeveer overeen met een uniforme verdeling van de mantisses van de getallen (in de zin van logaritme met grondtal 10, verminderd met de naar beneden op een geheel getal afgeronde waarde daarvan; voor een getal   is dit het gedeelte achter de komma van die logaritme).

Illustraties van de wet van Benford bewerken

Ingenieurs en technici die voor de komst van computers en elektronische rekenmachines met logaritmetabellen en rekenlinialen werkten bij het maken van complexe berekeningen, ontdekten al snel dat ze vaker met getallen te maken hadden waarvan het begincijfer een 1 was dan met getallen met een ander begincijfer.

Die ontdekking is ook zelf gemakkelijk te doen. Bij een vermenigvuldiging van getallen met 2 wordt een begincijfer 1 omgezet in een 2 of een 3, wordt een begincijfer 2 omgezet in een 4 of een 5, een begincijfer 3 in een 6 of een 7, en een begincijfer 4 in een 8 of een 9. Maar de andere begincijfers: 5, 6, 7, 8 en 9 leveren allemaal producten op die met een 1 beginnen.

Dus bij een vermenigvuldiging met 2 van een grote groep willekeurig gekozen getallen komen in de producten al aanzienlijk meer getallen met begincijfer 1 voor dan de ongeveer 11% die men zou verwachten op grond van een uniforme verdeling.

Fraaier is het effect waar te nemen in een spreadsheet. Laat de spreadsheet 1000 maal uitrekenen: (9*ASELECT()+1)*(9*ASELECT()+1)*(9*ASELECT()+1)*(9*ASELECT()+1) en tel hoe vaak ieder cijfer voorkomt als begincijfer van het product, dan zal men - afgezien van vrij kleine toevalsafwijkingen - de hier boven geschetste relatieve-frequentieverdeling vinden.

De schaalinvariantiehypothese bewerken

Als verschijnsel is de wet van Benford eenvoudig waar te nemen; het blijkt echter verre van eenvoudig een goede (wiskundige) verklaring te geven waarom die wet zou moeten gelden.

In 1961 suggereerde de wiskundige Pinkham dat schaalinvariantie mogelijk een onderliggende verklaring van de wet van Benford is, maar hoe de wet van Benford uit die invariantie moest worden afgeleid was nog een raadsel. Schaalinvariantie betekent: als de begincijfers van de getallen die de waarde van fysische grootheden voorstellen, voldoen aan een universeel geldende kansverdeling, zoals die van de wet van Benford, dan moet die verdeling onafhankelijk zijn van de gekozen eenheden waarin die waarden worden uitgedrukt. Of die waarden worden uitgedrukt in bijvoorbeeld SI-eenheden of in Engels-Amerikaanse eenheden, de verdeling van de begincijfers moet identiek zijn.

In 1976 publiceerde Ralph A. Raimi het resultaat van een diepgaand onderzoek naar de wet van Benford, waarin hij alle tot dan toe bekende verklaringen analyseert.[3] Geen enkele bleek een definitieve verklaring voor de logaritmische verdeling van het begincijfer van getallen.

De Amerikaanse wiskundige Theodore P. Hill publiceerde in 1995 een baanbrekende studie over de wet van Benford die voor een doorbraak in het onderzoek zorgde.[4] Hill gebruikte in zijn studie moderne fundamentele waarschijnlijkheidsrekening als basis voor de verklaring van de wet. Hill bewees daarmee dat de wet van Benford noodzakelijkerwijs optreedt als schaalinvariantie geldt voor een grote dataverzameling.

Dat wil zeggen dat schaalinvariantie - zoals die voorkomt in grote verzamelingen van natuurlijke gegevens - een voldoende voorwaarde voor de wet van Benford is. Maar schaalinvariantie blijkt geen noodzakelijke voorwaarde te zijn: er zijn verzamelingen te construeren waarin de wet van Benford geldt en waarin toch geen schaalinvariantie optreedt. Zulke verzamelingen construeert men bijvoorbeeld door getallengroepen uit verschillende, onafhankelijke bronnen samen te voegen. Maar ook de bovenstaande illustratie van de wet van Benford, waarin een verzameling van producten van aselect gekozen getallen wordt geconstrueerd, laat zien dat er naar een diepgaandere verklaring dan schaal-invariantie moet worden gezocht.

In 1998 publiceerde Theodore Hill een vervolgstudie over de wet van Benford[5]. Hierin onderzoekt hij het gedrag van mantisses in producten van uit stochastische variabelen gekozen getallen door toepassing van bepaalde types centrale limietstellingen. De wet van Benford blijkt steeds beter benaderd te worden naarmate het aantal stochastische variabelen toeneemt.

De studie van Hill uit 1998 wordt algemeen beschouwd als de meest bevredigende verklaring van de wet van Benford.

Afleiding van de wet van Benford bewerken

Kansdichtheid bewerken

Dat schaalinvariantie leidt tot de wet van Benford is als volgt in te zien. We beperken ons in eerste instantie tot het halfopen interval [1,10). Ieder (positief) reëel getal is immers in wetenschappelijke notatie te schrijven als een mantisse in dit interval, vermenigvuldigd met een macht van 10 (mantisse wordt hier dus in de andere betekenis gebruikt dan boven). Voor negatieve getallen geldt de volgende redenering ook, na toevoeging van een minteken.

We gaan op zoek naar een continue kansdichtheid   gedefinieerd op het interval [1,10). Het interval [1,10) wordt door een vermenigvuldiging met de positieve constante   getransformeerd naar een interval   We noemen de getallen in dit interval   en de kansdichtheid op dit interval   Omdat we schaalinvariantie veronderstellen moet gelden:

 .

Hierin is   een functie van de factor   Uit de schaalinvariantie volgt dat de kansdichtheid   hetzelfde functievoorschrift moet hebben als de kansdichtheid  

 

De oppervlakte onder beide kansdichtheden moet gelijk zijn aan 1, dus:

 

Hieruit volgt:

 

en daarmee:

 

Differentiëren naar   levert:

 

Voor   geeft dat de volgende differentiaalvergelijking voor  :

 

De oplossingen van deze vergelijking zijn:

 

De logaritmische verdeling bewerken

De kansdichtheid f(x) heeft het halfopen interval [1,10) als domein, dus:

 ,

zodat

 .

De kans dat een getal   tussen twee getallen   en   in dit interval ligt is:

 

Alle getallen met begincijfer   liggen in het halfopen interval   zodat we uiteindelijk voor de kans dat een getal het begincijfer   heeft, vinden:

 

Algemene wet bewerken

De wet van Benford wordt meestal besproken aan de hand van begincijfers, maar geldt ook voor tweede, derde en volgende cijfers van getallen. Die algemene wet wordt de General Significant Digit Law[6] genoemd. Daarmee kunnen we bijvoorbeeld de kans berekenen dat een getal (dat met ten minste drie cijfers wordt geschreven) met de cijfers 2, 7 en 1 begint:

 .

Radix-invariantie bewerken

In 1995 bewees Hill dat schaal-invariantie radix-invariantie impliceert. Daarmee wordt bedoeld dat de wet van Benford ook blijft gelden als het grondtal van het toegepaste talstelsel wordt gewijzigd. Zo is de kans dat een binair getal begint met de cijfers 1001 gelijk aan:

 .

Merk op, dat alleen het grondtal van de logaritme hoeft te worden gewijzigd; in de breuk in de logaritme kunnen we het decimale equivalent (in het voorbeeld 9) van de binaire uitdrukking (in het voorbeeld 1001) blijven gebruiken.

Radix-invariantie verklaart ook de hierboven genoemde algemene wet voor het eerste cijfer. De wet van Benford geldt immers ook voor het talstelsel met het (in de praktijk natuurlijk onhandig grote) grondtal 1000. In dat talstelsel is bijvoorbeeld 271, of een ander daarvoor gekozen symbool, niet meer dan een van de cijfers, waarvoor de bijbehorende kans volgens de logaritmische verdeling kan worden berekend.

De kans op volgende cijfers bewerken

Door herhaalde toepassing van de formule van de wet van Benford kan men de kans uitrekenen dat bijvoorbeeld 5 als derde cijfer in een getal van ten minste drie cijfers voorkomt. Hiertoe is het handig de cijfers van het getal van rechts naar links te nummeren, te beginnen bij 0:

 

Voorbeelden waar de wet geldig is bewerken

  • Getallen in facturen
  • Getallen in belastingsbrieven
  • Aantal inwoners
  • Lengte van rivieren
  • Fysische en mathematische constanten (zie Plouffes inverter)

De wet geldt niet bij een kunstmatige bovengrens, bijvoorbeeld aantal inwoners van kleine plaatsen, gedefinieerd als plaatsen met minder dan 50.000 inwoners.

Toepassing: forensische analyse bewerken

In 1972 bedacht Hal Varian dat de wet van Benford gebruikt kan worden om mogelijke fraude op te sporen in lijsten met socio-economische gegevens ter ondersteuning van overheidsbeslissingen. Hij baseerde zich op de veronderstelling dat mensen die zelf getallen uitvinden geneigd zijn de cijfers uniform te verdelen. Door de frequentieverdeling van de eerste en volgende cijfers van de getallen te vergelijken met de verwachte verdelingen volgens de wet van Benford zouden anomalieën snel en geautomatiseerd opgemerkt kunnen worden.[7]

Verdergaand op dit idee toonde Mark Nigrini aan dat afwijkingen van de wet van Benford ook gebruikt kunnen worden als indicator van vervalsing van een boekhouding of uitgavenfraude.[8]

De wet van Benford werd gebruikt als bewijsmateriaal voor fraude in de Iraanse verkiezingen van 2009.[9] Sommige deskundigen verwerpen de toepassing van de wet van Benford echter in het geval van verkiezingsfraude.[10]

Oneindige verzamelingen gehele getallen bewerken

Bij een oneindige verzameling V van positieve gehele getallen is de relatieve frequentie van de getallen beginnend met een bepaald cijfer nul of onbepaald. Dit kan men proberen op te lossen door de limiet voor   naar oneindig te nemen van de relatieve frequentie van de getallen beginnend met een bepaald cijfer binnen de deelverzameling van V van getallen  . Echter, de relatieve frequentie van de getallen beginnend met bijvoorbeeld een 1 is als   twee maal een macht van 10, min 1, is, vaak groter dan wanneer   de eerstvolgende macht van 10, min 1, is (het aantal getallen beginnend met een 1 is gelijk), en er is vaak geen convergentie.

Een eenvoudig voorbeeld is de verzameling van alle positieve gehele getallen. De relatieve frequentie van de getallen   beginnend met een 1 daalt van 1 naar 1/9, stijgt dan naar 11/19, daalt dan naar 11/99 (=1/9), stijgt dan naar 111/199, daalt dan naar 111/999 (=1/9), enzovoort, en oscilleert dus tussen 1/9 en ruim 5/9.

Een "oplossing" is om bij het nemen van de limiet voor   alleen machten van 10 te nemen (ronde getallen, dit lijkt redelijk), maar dit geeft een bias (systematische "fout") in de zin van een "benadeling" van een laag cijfer, in het bijzonder 1, als eerste cijfer: net als er weer veel getallen beginnend met een 1 zijn wordt de telling gestopt na het eerste daarvan. Het resultaat is de rij relatieve frequenties 2/10, 12/100, 112/1000, 1112/10000, convergerend naar 1/9 (iets boven de ondergrens bij de bovengenoemde oscillatie). Elk cijfer als eerste cijfer geeft dezelfde limiet. Dezelfde limieten gelden als voor   alleen machten van 10, min 1, te nemen (getallen tot en met die met een bepaald aantal cijfers), alle relatieve frequenties zijn dan 1/9. In deze gevallen geldt de wet van Benford dus niet.

Een andere oplossing is toepassing van een soort "gewogen frequentie", waarbij het gewicht kleiner is naarmate het getal groter is. Deze kan zo gekozen worden dat de verzameling van alle positieve gehele getallen, en bijvoorbeeld ook de verzameling priemgetallen, aan de zo gemodificeerde wet van Benford voldoet.[11]