Taalmodel

statistisch model van de structuur van een taal

Een taalmodel is een kunstmatig-intelligente tekstgenerator die een waarschijnlijkheidsverdeling over een volgorde van woorden opmaakt.[1] Grote taalmodellen kunnen op die manier in de praktijk “zelfstandig” een tekst aanvullen of opstellen.

WerkingBewerken

Gegeven een reeks woorden van lengte   kent een taalmodel een kans   toe aan de hele reeks. Taalmodellen genereren die waarschijnlijkheden door te trainen op tekstverzamelingen in één of meerdere talen. Aangezien talen kunnen worden gebruikt om een oneindige verscheidenheid aan geldige zinnen uit te drukken (de eigenschap van digitale oneindigheid), moet taalmodellering ook niet-nulwaarschijnlijkheden toekennen aan taalkundig geldige reeksen die wellicht nooit in de trainingsdata voorkomen. Er zijn verschillende modelleerbenaderingen ontworpen om dit probleem op te lossen, zoals de toepassing van de Markov-eigenschap, of het gebruik van neurale architecturen zoals recurrente neurale netwerken of het transformer-model.[2]

ToepassingenBewerken

Taalmodellen zijn nuttig voor een verscheidenheid van problemen in de computationele taalkunde, gaande van initiële toepassingen in spraakherkenning om ervoor te zorgen dat onzinnige (d.w.z. onwaarschijnlijke) woordsequenties niet worden voorspeld, tot breder gebruik in computervertalingen (bv. ontwerpvertalingen vergelijken), natuurlijke taalgeneratie (genereren van tekst zoals die door mensen wordt gesproken), part-of-speech tagging, parsing, optische tekenherkenning, handschriftherkenning, grammatica-inductie, information retrieval, en andere toepassingen.

Grote taalmodellen (LLM)Bewerken

Bekende krachtige taalmodellen, bekend als Large Language Models (LLM’s) zijn onder meer:

  • Baidu: ERNIE-Code: een meertalig coderingsmodel met 560m parameters
  • BLOOM: BigScience Large Open-science Multilingual Language Model met 176 miljard parameters.
  • Google Research & DeepMind
    • BERT (taalmodel): Bidirectional Encoder Representations from Transformers
    • DeepMind ontwikkelde verschillende taalmodellen zoals Chinchilla AI, en grafische tools waaronder Flamingo (VLM)
    • Generalist Language Model (GLaM) 1 biljoen parameter model
    • LaMDA (taalmodel) voor dialoogtoepassingen, een 137 miljard parametermodel
    • Pathways Language Model (PaLM) 540 miljard parameter model
    • RT-1: een model voor het bedienen van robots
  • Microsoft/NVIDIA
    • Megatron-Turing NLG, 530 miljard parametermodel
  • OpenAI:
    • GPT-2: Generative Pre-trained Transformer 2 met 1,5 miljard parameters
    • GPT-3: Generative Pre-trained Transformer 3, met 175 miljard parameters
    • ChatGPT, een taalmodel in chatvorm, gelanceerd eind november 2022
  • Andere:
    • GPT-NeoX-20B: een Open-Source autoregressief taalmodel met 20 miljard parameters
    • OPT-175B van Meta AI: een ander taalmodel met 175 miljard parameters
    • VALL-E tekst-naar-spraaksynthese.

Open sourceBewerken

Vele modellen ziijn wel publiek te gebruiken, maar de code en datasets zijn meestal niet publiek toegankelijk. Een van de uitzonderingen is het BLOOM-taalmodel, dat die basisgegevens deelt met onderzoekers.[3] Eventueel misbruik hopen de onderzoekers tegen te gaan met Responsible AI Licenses (RAIL).[4]

Evaluatie en benchmarksBewerken

De evaluatie van de kwaliteit van taalmodellen vindt meestal plaats door vergelijking met door mensen gecreëerde voorbeeld-benchmarks, opgemaakt volgens courante taalgerichte taken. Andere, minder gebruikte kwaliteitstests onderzoeken het intrinsieke karakter van een taalmodel, of vergelijken twee dergelijke modellen. Aangezien taalmodellen meestal dynamisch bedoeld zijn en kunnen leren van gegevens die worden ingevoerd, onderzoeken bepaalde methodes de leersnelheid, bijvoorbeeld door het nagaan van de leercurven.

KritiekBewerken

Critici uitten meerdere bezwaren of waarschuwingen rond taalmodellen:

  • taalmodellen roepen morele vragen op, vanwege mogelijke beïnvloeding van de menselijke autonomie, bijvorbeeld bij het oplossen van maatschappelijke problemen[5]
  • aangezien de algoritmes meestal niet publiek zijn, hebben we totaal geen zicht waar de informatie die taalmodellen uitbrengen, vandaan komt[6]
  • gebruikers klagen dat het model “ethische” oordelen en normen hanteert, en soms belerend overkomt[6]
  • het energieverbruik om de modellen te trainen en te gebruiken, zou gigantisch en dus milieubelastend zijn[7]
  • het creëren en verspreiden van nepnieuws en desinformatie wordt kinderspel nu sommige taalmodellen gebruiksvriendelijk zijn geworden.[8]

Onderscheid met menselijke tekstBewerken

Naarmate AI-taalmodellen verder worden geperfectioneerd, is het steeds moeilijker machinale teksten van door mensen geschreven kopij te onderscheiden.[9] Om dat te verifiëren, ontwikkelen wetenschappers intussen toetsen,[10] waarvan sommige ook publiek toegankelijk zijn, zoals Classifier van OpenAI.[11]

Externe linksBewerken