Gebruiker:Asartea/Kladblok/BERT (taalmodel)


BERT (Bidirectional Encoder Representations from Transformers) is een familie van taalmodellen ontwikkeld door Google, en voor het eerst gepubliceerd in 2018. [1] Een onderzoek vond dat in minder dan een jaar sinds de eerste aankondiging van BERT het een basis model was geworden in natural language processing onderzoek. [2]

Geschiedenis

bewerken

BERT werd voor het eerst geïntroduceerd in een paper van Google AI Language in 2019[1]. In oktober 2019 kondigde Google voor het eerst aan dat ze BERT gebruikten voor Engelse zoekopdrachten in de Verenigde Staten.[3] Sinds oktober 2020 worden alle Engelse zoekopdrachten verwerkt door een BERT model.[4]


Google ontwikkelde BERT als een alternatief voor bestaande eendirectionele transformators, omdat die architectuur fundamentele problemen met zich mee bracht die ze hoopte op te lossen met het gebruikt van een bidrectionele transformator.[1]

Ontwerp

bewerken

BERT is een bidirectionele transformator-encoder, bestaand uit meerdere lagen van transformators. Om input te verwerken gebruikt BERT Wordpiece met een vocabulaire van 30000 tokens om woorden om te zetten in reeksen van tokens[1]. In tegenstelling tot veel andere modellen heeft BERT alleen een encoder, geen decoder, omdat het niet bedoeld is als een volledig model.[1]

Training

bewerken

BERT is tegelijkertijd voor getraind op twee taken: gemaskeerde taal modellering en volgende zin voorspelling. In de eerste werd gevraagd om een token te voorspellen op basis van context, en in de tweede om te voorspellen of twee zinnen achter elkaar voorkwamen in het corpus. [1]

Gemaskeerde taal modellering

bewerken

15% van de tokens werd willekeurig gemaskeerd: in 80% van de gevallen werd de token vervangen door [MASK], in 10% van de gevallen met een willekeurige andere token, en in 10% met de originele token. Vervolgens kreeg BERT een zin te zien met een gemaskeerde token, en moest voorspellen wat de token was geweest. [1]

Volgende zin voorspelling

bewerken

BERT kreeg twee zinnen toegediend, gescheiden door een speciaal [SEP] token, en moest vervolgens voorspellen of de beide zinnen achter elkaar in het corpus voorkwamen.[1]

Analyse

bewerken

Alhoewel het duidelijk is dat BERT goed is in taal verwerking,is het niet duidelijk waarom dit het geval is. [2] Een mogelijke reden zou kunnen zijn dat de bidirectionele natuur van BERT het in staat stelt om veel beter de context van een woord te begrijpen. [2]

  1. a b c d e f g h Devlin, Jacob (2020). [https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding].
  2. a b c Rogers, Anna (2020). A Primer in BERTology: What We Know About How BERT Works. Transactions of the Association for Computational Linguistics 8: 842–866.
  3. (en) Understanding searches better than ever before. Google (25 oktober 2019). Geraadpleegd op 13 oktober 2023.
  4. (en) Schwartz, Barry, Google: BERT now used on almost every English query. Search Engine Land (15 oktober 2020). Geraadpleegd op 13 oktober 2023.