Information retrieval: verschil tussen versies
Verwijderde inhoud Toegevoegde inhoud
1 (onbereikbare) link(s) aangepast en 0 gemarkeerd als onbereikbaar) #IABot (v2.0.9.2 |
k Edit link naar doorverwijspagina / Normalisatie > Databasenormalisatie |
||
Regel 12:
Eerst wordt ieder document in <math>D</math> gereduceerd tot een verzameling ''termen'' met bijbehorende absolute frequenties. Doorgaans zijn termen de woorden die in het document voorkomen, na verwijdering van veel voorkomende woorden als ''de'', ''het'', ''voor'' enz. (de 'stopwoorden'). De resulterende ''bag of words'' wordt door toepassing van wegingsfuncties omgezet in een vector <math>\vec{d}</math> in een <math>N</math>-dimensionale ruimte, waarbij <math>N</math> het totaal aantal termen in alle documenten van <math>D</math> is. Hierbij correspondeert elke unieke term met één dimensie van <math>\vec{d}</math>; de waarde in die dimensie wordt bepaald door weging van de [[frequentie]] van <math>t</math>. Als een term in een document niet voorkomt, is de waarde in de corresponderende dimensie 0. De query wordt een soortgelijk proces onderworpen met een vector <math>\vec{q}</math> als resultaat.
De weging van termen geschiedt meestal door [[
Vervolgens kan een query <math>q</math> gebruikt worden om de documenten <math>d_i</math> in <math>D</math> te rangschikken van meest naar minst relevant door de afstand of hoek (afgeleid uit het [[Inwendig product|inproduct]]) tussen de vectoren <math>\vec{d_i}</math> en <math>\vec{q}</math> te meten. De documenten die de kleinste hoek met de vector hebben, worden verondersteld het meest relevant te zijn.
|