Information retrieval: verschil tussen versies

Verwijderde inhoud Toegevoegde inhoud
1 (onbereikbare) link(s) aangepast en 0 gemarkeerd als onbereikbaar) #IABot (v2.0.9.2
k Edit link naar doorverwijspagina / Normalisatie > Databasenormalisatie
Regel 12:
Eerst wordt ieder document in <math>D</math> gereduceerd tot een verzameling ''termen'' met bijbehorende absolute frequenties. Doorgaans zijn termen de woorden die in het document voorkomen, na verwijdering van veel voorkomende woorden als ''de'', ''het'', ''voor'' enz. (de 'stopwoorden'). De resulterende ''bag of words'' wordt door toepassing van wegingsfuncties omgezet in een vector <math>\vec{d}</math> in een <math>N</math>-dimensionale ruimte, waarbij <math>N</math> het totaal aantal termen in alle documenten van <math>D</math> is. Hierbij correspondeert elke unieke term met één dimensie van <math>\vec{d}</math>; de waarde in die dimensie wordt bepaald door weging van de [[frequentie]] van <math>t</math>. Als een term in een document niet voorkomt, is de waarde in de corresponderende dimensie 0. De query wordt een soortgelijk proces onderworpen met een vector <math>\vec{q}</math> als resultaat.
 
De weging van termen geschiedt meestal door [[normalisatieDatabasenormalisatie|normalisering]] t.o.v. de meest frequente term in het document (''term frequency'', tf) gevolgd door deling door het aantal documenten waarin de term voorkomt (''inverse document frequency'', idf); deze wegingsmethode wordt tf×idf genoemd. Er bestaan talloze varianten op dit schema en vaak worden documenten en query's iets verschillende formules gebruikt.
 
Vervolgens kan een query <math>q</math> gebruikt worden om de documenten <math>d_i</math> in <math>D</math> te rangschikken van meest naar minst relevant door de afstand of hoek (afgeleid uit het [[Inwendig product|inproduct]]) tussen de vectoren <math>\vec{d_i}</math> en <math>\vec{q}</math> te meten. De documenten die de kleinste hoek met de vector hebben, worden verondersteld het meest relevant te zijn.