SoNaR (STEVIN Nederlandstalig Referentiecorpus) is een corpus bestaande uit 500 miljoen geschreven Nederlandse woorden.

SoNaR werd ontwikkeld als algemeen referentiemiddel voor onderzoeken op het gebied van de Nederlandse taal, taalgebruik, corpuslinguïstiek en computationele taalkunde.[1]

SoNaR-500

bewerken

SoNaR-500 is het volledige corpus, waar SoNar-1 en D-Coi deel van uitmaken. SoNaR-500 bevat 500 miljoen woorden, uit een opeenhoping van verschillende soorten teksten, waardoor het corpus volgens de makers evenwichtig en multifunctioneel is: boeken, tijdschriften, brochures, handleidingen, scripties, websites, persberichten, sms-berichten en andere chats. Alleen teksten die vanaf het jaar 1954 zijn verschenen, zijn in het corpus opgenomen. Van deze teksten komt twee derde deel uit Nederland en een derde deel uit Vlaanderen.[1] De teksten in het SoNaR-500 corpus zijn automatisch ontleed en gelemmatiseerd door middel van een hulpmiddel genaamd FROG.[2] Ook zijn semiautomatisch vier semantische "lagen" toegevoegd:

  • benoemde entiteiten (objecten uit de echte wereld)
  • coreferentiële relaties
  • semantische rollen
  • spatiële- en temporele relaties

SoNaR-1

bewerken

SoNaR-1 bestaat grotendeels uit dezelfde soort teksten als SoNaR-500, maar heeft daarentegen één miljoen woorden. Door de relatief kleine omvang zijn niet alleen de semantische "lagen" zoals hierboven beschreven toegevoegd, maar ook een uitgebreide syntactische analyse, die handmatig is geverifieerd in het Lassy-project.[3]

Het D-Coi (STEVIN Nederlandstalig Corpus Initiatief) corpus is een testcorpus dat is ontwikkeld om als blauwdruk te fungeren voor het tien keer zo grote SoNaR corpus. Het D-Coi corpus bevat 50 miljoen woorden en is voor een klein deel verrijkt met taalkundige opmerkingen.[1]