Generative pre-trained transformer

Een Generative Pre-trained Transformer, beter bekend als GPT (Generatieve vooraf getrainde transformator), is een techniek uit de kunstmatige intelligentie en concept voor het kunstmatig genereren van teksten en het voeren van gesprekken met een chatbot. Het maakt gebruik van een taalmodel in combinatie met deep learning en werd in 2018 geïntroduceerd door het Amerikaanse bedrijf OpenAI. De meest bekende toepassing is de chatbot ChatGPT waarmee een gebruiker een gesprek kan voeren dat lijkt op een gesprek met een echt persoon.

De architectuur van GPT

Een GPT-model is een kunstmatig neuraal netwerk, gebaseerd op de transformatorarchitectuur. Deze architectuur helpt bij het begrijpen van de context van woorden en zinnen. Hierdoor kunnen verbanden gelegd worden tussen de verschillende zinnen in een gesprek en hiermee een relevante en geloofwaardige reactie genereren. Deze architectuur onderscheid zich van oudere neurale netwerken doordat het de input-data parallel verwerkt in tegenstelling tot oudere modellen die de input sequentieel verwerken. Het neurale netwerk van het transformatormodel bestaat uit meerdere lagen neuronen. Daarnaast wordt het principe van "Self attention" (zelfaandacht) toegepast waarmee de verbanden tussen de stukjes input (bijvoorbeeld de woorden in een zin) een weging krijgen. Het ene verband is immers belangrijker dan het andere. Het model kan informatie van deze verbanden uit verschillende inputsequenties halen (bijvoorbeeld wanneer iemand meerdere vragen stelt in een chatgesprek) en zo context creëren.

Het model wordt getraind op zeer grote datasets van niet-gelabelde tekst, afkomstig van het internet. Het model leert hiermee de patronen in een taal kennen en leert voorspellen welk woord het meest waarschijnlijke volgende woord in een zin, met een bepaalde voorgeschiedenis en context is. Hierna kan het model nog bijgetraind worden op een specifieke taak, bijvoorbeeld het voeren van een gesprek of juist het schrijven van een artikel. In combinatie met de omvang van een dergelijk systeem is GPT in staat om vele taken op het gebied van taalverwerking goed uit te voeren en hierin een (bijna) menselijk gedrag te vertonen. OpenAI heeft meerdere versies van ChatGPT gelanceerd met een steeds groter achterliggend model.

Bij het genereren van een antwoord, reactie of tekst wordt steeds een berekening gemaakt van wat het meest waarschijnlijke volgende woord zou moeten zijn. Dit wordt bepaald o.b.v de voorgaande woorden in de zin, de voorgaande zinnen, de input (vraag) van de gebruiker en de context. Het neurale netwerk komt dan met het volgende meest waarschijnlijke woord en begint dan aan de berekening van het daaropvolgende woord. Op die manier ontstaat een verhaal woord voor woord en zin voor zin. Het model werkt met context maar heeft zelf geen besef van enige betekenis. Dit leidt soms tot een verschijnsel genaamd hallucinatie waarbij GPT een tekst genereert die zichzelf tegenspreekt, zichzelf herhaalt of gewoon onzin genereert. Daarnaast is de output afhankelijk van de input waarmee het systeem getraind is. Wanneer het systeem gevoed wordt met foutieve informatie of nepnieuws dan zal het ook dergelijke informatie genereren.

Zie ook bewerken