Corpuslinguïstiek

een tak van de linguïstiek die taal bestudeert aan de hand van voorbeelden in echte teksten

Corpuslinguïstiek of corpustaalkunde is de studie van bepaalde taalverschijnselen met behulp van een verzameling geannoteerde teksten. Zulke verzamelingen van teksten worden corpora genoemd.

Zaken die vaak worden onderzocht zijn de frequentie van bepaalde woorden en de typische contexten waarin ze opduiken. Dit gebeurt tegenwoordig over het algemeen digitaal. Voordat de computer werd uitgevonden, maakte men hiervoor gebruik van concordanties, in de vorm van handmatig opgestelde overzichten van de contexten waarin een bepaald woord werd aangetroffen. Aan het eind van de 17e eeuw deed Abraham Trommius bijvoorbeeld iets dergelijks voor de Bijbel. Tegenwoordig maken onderzoekers gebruik van concordantieprogramma's.

Corpusonderzoek bewerken

Corpusmethoden, waarbij een grote hoeveelheid teksten wordt onderzocht, zijn gangbaar in een allerlei verschillende vakgebieden binnen en buiten de taalwetenschap. De reden dat deze methode zo veel navolging heeft gekregen, is omdat ze intuïties van sprekers (hoe vaak denkt men dat bepaalde woorden voorkomen) koppelt aan empirische methoden (hoe vaak komen die woorden echt voor), waardoor taalbeschrijving kan winnen aan objectiviteit.[1] Hieronder een overzicht met voorbeelden van daadwerkelijk onderzoek.[2]

  • Grammatica: Een corpus biedt inzicht in syntactische kenmerken en taalvariatie van een taal. Daarnaast kunnen grammaticale theorieën en hypotheses worden getest met behulp van een corpus. Het bijzondere aan een corpus-gebaseerde grammatica is bovendien dat het de verschillen tussen gesproken en geschreven grammatica in kaart kan brengen: eerder vloeiden grammaticaregels vrijwel uitsluitend uit geschreven taal voort. Uit recent onderzoek is gebleken dat de traditionele, op zinnen gebaseerde grammatica, onvoldoende overeenkomt met gesproken taal. Zo werden er door corpus-gebaseerd onderzoek nieuwe regels voor het gebruik van de indirecte rede in het Engels ontdekt.[2]
  • Lexicografie: Er zijn meerdere voordelen aan het gebruik van corpora voor lexicografisch onderzoek. De kwaliteit van een woordenboek kan verbeteren, doordat er meer teksten mogelijk zijn om te analyseren. Zo kunnen ook zeldzame woorden worden opgespoord. Daarnaast voorkomt een corpora dat onderzoekers zich alleen laten leiden door hun intuïtie en zo geen beschikking hebben over semantische patronen die zij zelf niet kunnen ontdekken. Een belangrijke focus van corpusgebaseerde lexicale studies is collocatie en collocationele betekenis. Collocatie, de kenmerkende verschijning van patronen in de omgeving van woorden, kan middels corpora goed worden onderzocht.
  • Registeranalyse: Teksten worden geproduceerd in verschillende registers of genres. Tussen tekstsoorten met verschillende registers kan variatie bestaan. Een veel gebruikte manier om register- en genrevariatie te benaderen is multifeature/multidimensional analytical framework (MF/MD). Deze benadering is gebaseerd op factoranalyse. Biber (1991) gebruikte factoranalyse om zeven factordimensies te onderscheiden, te weten:
    • Informationeel vs. betrokken;
    • Narratief vs. non-narratief;
    • Expliciet vs. situatieafhankelijk;
    • Openlijke uiting van persuasie;
    • Abstract vs. concreet;
    • Online informationele elaboratie;
    • Academische indekking.

Door deze methode te gebruiken konden verschillen en overeenkomsten tussen verschillende genres in gesproken en geschreven Engels weergegeven worden, waarbij de communicatieve functie in acht werd genomen.[3] MF/MD is ook in andere contexten gebruikt, zoals synchrone analyses van specifieke registers/genres, diachrone studies naar de ontwikkelingen van registers en registerstudies van niet-Westerse talen.[bron?]

  • Diachrone taalontwikkeling: Diachroon onderzoek in de taalkunde bekijkt hoe taal verandert door de jaren heen. Dit type onderzoek is van belang omdat de intuities van moderne taalgebruikers weinig te bieden hebben als het gaat over taal zoals vroeger gesproken werd. Peitsara (1993)[4] heeft dit type onderzoek uitgevoerd naar de prepositionele frase die dient ter introductie van de agens in passieve constructies in Vroegmodernengels en Modern Engels met behulp van het Helsinki corpus.[5] Dit corpus is geschikt voor dit type onderzoek omdat het data bevat van niet alleen verschillende periodes binnen een langere tijdsperiode, maar ook het onderscheid maakt tussen genre en sociolinguïstische informatie.
  • Vertaalstudies: Onderzoeken naar vertalingen van L1 naar L2 zijn gebaseerd op linguïstische features. Vertaalstudies zijn van belang omdat hierdoor duidelijk wordt hoe een idee in de ene taal overgebracht wordt in een andere taal. Zo is via onderzoek van Baker naar voren gekomen dat vertalingen van L1 naar L2 vaak genormaliseerd en gesimplificeerd zijn.[6] Ook zijn vertalingen vaak geëxpliciteerd, dus ze hebben een hogere cohesie. Voor onderzoeken naar translaties wordt gebruik gemaakt van parallelle corpora, aangezien dit een betrouwbare basis is voor contrastieve studies.
  • Semantiek: Corpusonderzoek naar semantiek is belangrijk, omdat hiermee taalkundige items vast te stellen zijn. Dit is te zien in het onderzoek van Gilquin (2003). Gilquin heeft onderzoek gedaan naar GET en HAVE. Uit de studie is gebleken dat de twee werkwoorden verschillen hebben, maar ook gemeenschappelijke kenmerken hebben. Ook Xiao en McEnery hebben onderzoek gedaan door middel van corpusonderzoek een model van situatieaspect ontwikkeld. De genoemde voorbeelden geven aan dat corpora op verschillende gebieden van de semantiek een rol spelen.[7]
  • Pragmatiek: Pragmatiek wordt sterk geassocieerd met gesproken taal. Kennedy: wat we zeggen en hoe we het zeggen wordt sterk beïnvloed door de partner en contextinteractie. Tot halverwege 1990 waren de op corpus gebaseerde pragmatische studies erg beperkt, dit kwam omdat er maar een groot corpus publiekelijk toegankelijk was. Dit was het Londo-Lund Corpus. Het is niet verrassend dat gesproken taal minder duidelijk is dan geschreven taal. Dit komt omdat gesproken taal contextafhankelijk is en geschreven taal niet per se. De reden om vage uitdrukkingen te gebruiken is onzekerheid tijdens het spreken. In deze gevallen helpt vaagheid bij het vloeiend laten verlopen van het gesprek ook al ontbreekt er informatie. De vage taal helpt de hoorder om de woorden van de spreker zo goed mogelijk te interpreteren.
  • Sociolinguïstiek: Sociolinguïstisch onderzoek was tot op heden grotendeels beperkt tot het gebied van genderstudies op lexicaal niveau. Uit onderzoek is gebleken dat vrouwen niet gelijk behandeld worden ten opzichte van mannen. Holmes[8] heeft veel gepubliceerd over seksisme in Engeland, bijvoorbeeld over genderneutrale termen. Naast seksisme, zijn vrouwelijkheid en seksuele identiteit twee belangrijke onderzoeksgebieden die gebruik zijn gaan maken van corpus gebaseerd onderzoek. Zo werd bijvoorbeeld onderzocht hoe vrouwen (en meisjes) over hoe zij zichzelf presenteren in een omgeving waarin zij zich op hun gemak voelen.
  • Discoursanalyse: Corpusonderzoek is een methode om discoursanalyse uit te voeren. Discoursanalyse gebaseerd op een corpus staat nog enigszins in de kinderschoenen, maar de aanpak van corpusanalyse zorgt ervoor dat er met een objectieve blik naar het discours van een tekst gekeken wordt. Zo onderzocht taalkundige dr. Mario Saraceni in 2003 de verschillen in taalgebruik tussen Tony Blair en George W. Bush Hij gebruikte twee corpora met speeches en interviews gerelateerd aan de oorlog in Irak. Aan de hand van corpusanalyse ontdekte hij dat Bush typisch rechts taalgebruik nuttigt, terwijl Blair meer politiek neutraal spreekt.[9]
  • Literatuur en stilistiek: Belangrijk in corpusonderzoek naar literatuur is de analyse van stilistische elementen. Er kunnen verschillende soorten corpusonderzoek worden uitgevoerd binnen de stilistiek, waaronder het analyseren van individuele auteurs. Een voorbeeld hiervan is diachroon onderzoek, waarbij het oeuvre van een schrijver bekeken wordt, zoals gedaan naar de Australische Aboriginalauteur Mudrooroo Nyoongah.[10] Daarvoor zijn verfijnde technieken nodig, zoals stylometrische analyse. Bij deze vorm van onderzoek kunnen meerdere genres worden samengevoegd, zoals toneelstukken en/of essays. Dit type onderzoek is ook zeer nuttig om teksten toe te kunnen schrijven aan auteurs, om zo anonieme teksten te kunnen plaatsen. Dit heet authorship attribution. Auteurs hebben namelijk allen een unieke stijl. Bij corpusonderzoek naar literaire teksten kunnen naast auteurstijl andere factoren in beschouwing worden genomen, zoals intertekstualiteit, genre en actueel taalgebruik. Corpusonderzoek kan ook in het onderwijs gebruikt worden, om studenten inzicht bij te brengen over literariteit.[11]
  • Forensische taalkunde: Een andere manier om corpora te gebruiken is in de forensische taalkunde. Men gebruikt hierbij vaak jargon, maar per persoon kunnen woorden verschillende betekenissen hebben. Dit kan invloed hebben op bijvoorbeeld rechtszaken. Ook kan de advocaat of aanklager manipulerend taalgebruik gebruiken, waardoor de jury of rechter wordt beïnvloed. Dat heeft vooral te maken met connotaties die aan woorden hangen. Cotterill (2001) heeft een onderzoek gedaan naar woordgebruik en de effecten tijdens de rechtszaak van O.J. Simpson.[12] Dit is belangrijk omdat het cruciaal kan zijn voor de beslissingen van de jury en rechter. Cotterill vond bijvoorbeeld dat de aanklager woorden gebruikte met negatieve connotaties en de advocaat juist woorden met positieve of neutrale connotaties. Een ander voorbeeld waarom forensische taalkunde belangrijk is, is om bijvoorbeeld auteurschap te onderzoeken in geschreven bewijs of briefjes van verdachten. Dit kan een rechtszaak makkelijker maken of zelfs oplossen.
  • Taalleren en -onderwijs: Sinds de jaren 1990 zijn er veel relaties ontstaan tussen corpusgebaseerd onderzoek aan de ene kant en taalonderwijs en taalleren aan de andere. Hierbij ligt de nadruk op drie elementen: het directe gebruik van corpora in onderwijs (door bv onderwijs te geven over de methode), het impliciete gebruik van corpora in onderwijs (bijvoorbeeld door taalmateriaal te baseren op corpusonderzoek) en het gebruik van corpora gebaseerd op taalmateriaal uit het onderwijs (zoals corpora van taalleerders of van studentenessays).[13] Vooral die laatste aanpak zorgt ervoor dat onderzoekers meer inzicht krijgen in de manier waarop, bijvoorbeeld, tweedetaalsprekers een nieuwe taal leren vanuit verschillende brontalen, wat gevolgen kan hebben voor het daadwerkelijke geven van onderwijs.[14]

Bestaande corpora bewerken

Sinds het ontstaan van de corpuslinguïstiek zijn er veel verschillende corpora gemaakt, in een groot aantal talen. Veel Engelse corpora zijn (gedeeltelijk) gratis toegankelijk (bv COCA of BNC); Nederlandse corpora zijn vaak alleen beschikbaar via een universitaire login. Hieronder een overzicht van de bekendste corpora in het Nederlands, Engels en andere talen.

Nederlandse corpora bewerken

  • CGN: Corpus Gesproken Nederlands, is een corpus van bijna 9 miljoen woorden, dat bestaat uit spraakfragmenten van Nederlandse en Vlaamse sprekers. Deze spraakfragmenten zijn zowel voorbereid als spontaan en zijn voorzien van verschillende transcripties en annotaties.[15]
  • Brieven als Buit: dit is een open corpus bestaande uit 38000 buitgemaakte brieven uit de 17e en 18e eeuw van zeevarenden aan thuisblijvenden en vice versa, samengesteld door Marijke van der Wal tussen 2008 en 2013.[16]
  • Eindhoven Corpus: dit corpus wordt ook wel Corpus Uit den Boogaart genoemd, naar P.C. Uit den Boogaart, een van de samenstellers. Het werd in de jaren 1970 werd gemaakt, en bevat ±768.000 woorden uit de periode 1960-1976. Het Eindhoven-corpus was het eerste Nederlandstalige corpus dat zowel geschreven als (getranscribeerde) teksten bevatte.[17]
  • Corpus Hedendaags Nederlands: Het corpus Hedendaags Nederlands bevat meer dan 800.000 teksten vanaf 1814 tot 2013. De teksten bestaan uit kranten, tijdschriften, journaaluitzendingen en juridisch materiaal. Sinds 1994 zijn deze verschillende tekstverzamelingen online toegankelijk gemaakt.[18]
  • SoNaR-corpus: bestaat uit twee delen, SoNaR-500 en SoNaR-1, en is gemaakt in 2015. Het geeft de mogelijkheid om Nederlandse, geschreven tekst te analyseren.[19][20]

Engelse corpora bewerken

  • Brown: dit is een corpus opgericht in 1961 door twee professoren van Brown University. Het bevat circa één miljoen woorden, opgeslagen op ponskaarten. De samples zijn afkomstig uit verschillende genres, zoals literatuur, journalistiek, etc.[21]
  • British National Corpus (BNC): dit corpus is in de jaren '80 en vroege jaren '90 gemaakt door Oxford University Press en bestaat uit 100 miljoen woorden uit verschillende genres. Het corpus is vrij toegankelijk.[22]
  • Penn is een corpus van historisch Engelse teksten vanaf de twaalfde eeuw tot in de vroege twintigste eeuw. Het bestaat uit prozateksten met syntactische annotatie en heeft 3 miljoen woorden.[23]
  • COCA: COCA (Corpus of Contemporary American English) is een Amerikaans-Engels corpus van meer dan een miljard woorden uit verschillende genres (bijvoorbeeld gesproken tekst, fictie, kranten en academische en populaire tijdschriften) daterend uit 1990-2017.[24]

Meertalige corpora bewerken

  • CHILDES: kindertaal in verschillende talen
  • Dutch Parallel Corpus (DPC)
  • Namur corpus: het corpus is samengesteld op de Universiteit van Namen in 1999 en bestaat uit ongeveer 2.000.000 woorden die in fictionele en non-fictionele teksten staan.[25]
  • Internet: bijna een oneindig aantal woorden dat elke dag groeit