Tekstclassificatie

Tekstclassificatie is een proces waarin een tekst wordt ingedeeld in klassen of categorieën, bijvoorbeeld het indelen van recensies in klassen van positief, negatief en neutraal.^[1] Dit proces wordt veel gebruikt binnen de informatica, informatiekunde en de bibliotheekwetenschap. Er zijn algoritmes die op grote schaal teksten indelen. Deze classificatie wordt in de bibliotheekwetenschap meestal door de mens gedaan, terwijl binnen de informatica en informatiekunde algoritmes hiervoor worden gebruikt.

Classificatieonderwerpen bewerken

Tekstclassificatie wordt gebruikt om documenten en teksten in te delen in verschillende categorieën. Enkele voorbeelden hiervan zijn:^[2]

Emotie
Nieuws (in categorieën indelen op bijvoorbeeld een nieuwssite)
Redenen achter een citaat

Classificatie tegenover indexeren bewerken

Soms wordt er verschil uitgemaakt tussen het indelen van teksten in klassen en het indelen van een tekst onder een bepaald onderwerp. Volgens Frederick Wilfrid Lancaster is deze onderscheiding niet heel nuttig.^[3] Dit komt onder andere ook doordat classificatiesystemen kunnen worden gebruikt als thesaurus of synoniemenwoordenboek. Dit betekent dus dat een tekst indelen met een label of onder een onderwerp vrijwel gelijk is aan het indelen van de tekst in klassen.

Algoritmisch teksten indelen (ADC) bewerken

Teksten kunnen algoritmisch worden ingedeeld. Dit heet automatic document classification (ADC). Er zijn drie soorten:^[4] supervised document classification, waarbij een mens of een ander externe factor informatie geeft over hoe de documenten en/of teksten ingedeeld moeten worden, unsupervised document classification, waarbij de classificatie helemaal zonder extra informatie moet worden gedaan en semi-supervised document classification, waarbij delen van de documenten en/of teksten gelabeld worden door externe factoren en de rest zonder extra informatie moet worden ingedeeld.

Toepassingen bewerken

Tekstclassificatie wordt onder andere gebruikt voor:

Spamfilters
Taalidentificatie
Leesbaarheidsmetingen
Sentimentanalyse

↑ What is Text Classification? - Hugging Face. huggingface.co. Geraadpleegd op 22 september 2022.
↑ (en) Papers with Code - Text Classification. paperswithcode.com. Geraadpleegd op 22 september 2022.
↑ Lancaster, F. W. (2003). Indexing and abstracting in theory and practice. Library Association, London.
↑ Rossi, R. G., Lopes, A. d. A., and Rezende, S. O. (2016). Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts. Information Processing & Management, 52(2):217–257.

Dit artikel of een eerdere versie ervan is een (gedeeltelijke) vertaling van het artikel Document classification op de Engelstalige Wikipedia, dat onder de licentie Creative Commons Naamsvermelding/Gelijk delen valt. Zie de bewerkingsgeschiedenis aldaar.

[1] What is Text Classification? - Hugging Face. huggingface.co. Geraadpleegd op 22 september 2022.

[2] (en) Papers with Code - Text Classification. paperswithcode.com. Geraadpleegd op 22 september 2022.

[3] Lancaster, F. W. (2003). Indexing and abstracting in theory and practice. Library Association, London.

[4] Rossi, R. G., Lopes, A. d. A., and Rezende, S. O. (2016). Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts. Information Processing & Management, 52(2):217–257.

[1]

[2]

[3]

[4]