Classificatie

ordening van objecten in een schema

Classificatie is zowel de activiteit van het ordenen van objecten in een schema, als het geformaliseerde (vastgelegde) schema zelf. Classificatie in engere zin is de activiteit en het resultaat van het indelen of samennemen van objecten (ook verschijnselen, processen) in verschillende groepen of klassen, op grond van overeenkomst in eigenschappen. Een classificatie of classificatiesysteem is het geformaliseerde resultaat van die activiteiten. Dergelijke systemen worden bijvoorbeeld in een schema of in een dendrogram weergegeven. Classificeren in de zin van rubriceren, categoriseren, diagnosticeren, determineren of identificeren betreft ten slotte het toepassen, gebruik maken, van een bestaand, formeel classificatiesysteem.

Linnaeus' tabel van het dierenrijk uit Systema naturae (1735)

Algemeen bewerken

Onder classificatie kunnen verschillende zaken worden verstaan:

  1. De clusteranalyse, de activiteit van het classificeren of classificatie in engere zin: het ontwerpen van een classificatiesysteem door het het indelen van objecten op grond van overeenkomsten in hun kenmerken. Hierbij kunnen beschrijvende multivariate statistische methoden gebruikt worden.
    • Elke klasse wordt daarbij gekarakteriseerd door een opsomming van de onderscheidende, specifieke kenmerken.
    • Cladistiek is een speciale, aangepaste analysemethode van biologische taxa met het doel evolutionaire verwantschappen te vinden.
  2. Het classificatiesysteem, het resultaat van de vorige stap, de in groepen ingedeelde verschijnselen, objecten of processen. Voorbeeld: het periodiek systeem der elementen.
  3. De activiteit van het indexeren, sorteren, diagnosticeren, identificeren, determineren of het rubriceren van objecten of verschijnselen in een gekozen, reeds bestaand classificatiesysteem, of het vaststellen van de identiteit van objecten volgens één of meer criteria. Voorbeeld: determinatie van planten met behulp van een flora.

Voor objecten kunnen de termen classificatiesysteem, typologie en taxonomie nagenoeg als synoniem worden gebruikt. In de psychologie, informatica/kunstmatige intelligentie worden deze begrippen soms echter wel onderscheiden. Het verschil zit vooral in de manier waarop de indeling tot stand komt: taxonomieën empirisch (inductief) en typologieën conceptueel (deductief).

Classificatie in engere zin of clusteranalyse is van nut bij de datareductie, dus bij het opsporen van redundantie en de samenvatting van gegevens, bij de reductie van ruis, bij het opsporen van uitbijters, bij modelvorming en bij de interpretatie van de samenhang met externe (verklarende, onafhankelijke) variabelen zoals omgevingsfactoren.

Het is niet strikt noodzakelijk dat een classificatie wordt gemaakt op grond van één specifieke eigenschap (monothetische classificatie). Zo kunnen objecten een groep eigenschappen met elkaar gemeen hebben (polythetische classificatie), zonder dat één specifieke eigenschap bij alle objecten voorkomt. Denk hierbij aan syndromen van eigenschappen. Wittgenstein noemde dit soort overeenkomsten familiegelijkenissen. Ook kunnen objecten in een groep worden gezet juist omdat ze niet over een bepaalde eigenschap beschikken. Soms wordt voor classificatie in het algemeen de term taxonomie gebruikt. Hiermee wordt vaak meer specifiek de classificatie van levende wezens bedoeld.

Omdat een classificatie een kunstmatige constructie is, zijn de indelingscriteria subjectief. Wel is een classificatie in meer of mindere mate bruikbaar voor het doel waarvoor deze is gemaakt. Veel verschijnselen kunnen dan ook op verschillende manieren worden geclassificeerd. Een goed voorbeeld hierbij zijn de verschillende biologische classificaties van levende wezens. Bij de taxonomie van levende wezens werd oorspronkelijk uitgegaan van uiterlijke vormen, terwijl tegenwoordig de fylogenie, o.a. af te leiden uit genetische overeenkomsten, als het belangrijkste criterium geldt. De classificatie van de Library of Congress is minder geschikt voor kleine bibliotheken. Een classificatie is meestal beter te gebruiken als de groepen waarin deze is opgedeeld elkaar niet overlappen.

In de biologie worden classificatie en ordinatie vaak als elkaar aanvullende multivariate methoden van gegevensverwerking gezien.

Clusteranalyse bewerken

  Zie Clusteranalyse voor het hoofdartikel over dit onderwerp.

Clusteranalyse is classificatie in engere zin: het groeperen in clusters of klassen van objecten (entiteiten, individuen, operationele eenheden, monsters, opnames, tellingen, sample units, relevées) op grond van hun kenmerken (attributen, eigenschappen, variabelen, characters, traits, features, cases). Het resultaat is een classificatiesysteem. Meestal worden dendrogrammen gebruikt om het resultaat van clusteranalyse weer te geven.

Er is een grote variatie aan classificatiemethoden te onderscheiden op grond van het al of niet overlappen van de klassen, de af- of aanwezigheid van een hiërarchie, de wijze van opbouw van het dendrogram en de noodzaak van het vooraf berekenen van de onderlinge verschillen tussen de objecten.

Bij het classificeren van objecten moeten enkele subjectieve beslissingen worden genomen.

  • keuze van de te clusteren objecten, hun aantal en wijze van bemonstering,
  • keuze van de kenmerken, hun aantal, hun meetschaal en hun weegfactoren,
  • keuze van de clustermethoden: Er zijn divisieve methoden, agglomeratieve methoden en simultane methoden:
    • bij divisieve classificatiemethoden wordt de gehele verzameling objecten opgedeeld in 2 of meer zo homogeen mogelijke groepen, waarna deze eventueel verder kunnen worden opgedeeld,
    • bij agglomeratieve clustermethoden worden de meest verwante paren van objecten eerst samengevoegd tot kleine clusters, waarna deze weer verder kunnen worden samengevoegd tot steeds grotere clusters.
    • bij simultane clustermethoden kan deze opdeling in clusters ook in een keer gebeuren in een van tevoren opgegeven aantal clusters.
  • het doen van de waarnemingen: het meten van de kenmerken in de gekozen meetschaal.

Het is ook mogelijk de kenmerken (en niet de objecten) te classificeren. Bij sommige methoden gebeurt dit echter gelijktijdig.

In de biologie (met name in de biosystematiek) worden divisieve en agglomeratieve methoden tegelijk gebruikt bij de classificaties van organismen. Het centrale niveau is dat van de soort. Soorten kunnen weer worden onderverdeeld in lagere taxa, zoals ondersoort en variëteit. Soorten zelf worden samengevoegd in geslachten en deze weer in families en in taxa van nog hogere rang.

Classificatiesystemen bewerken

  Zie Classificatiesysteem voor het hoofdartikel over dit onderwerp.

Er bestaan verschillende classificatiesystemen. Zo zijn er classificaties die dienen om informatie snel te kunnen terugvinden:

  • De internationale classificatiesystemen die in bibliotheken worden gebruikt en specifieke classificatiesystemen voor het Nederlands en Vlaams taalgebied. Voorwerpen die in dit verband in de bibliotheekwetenschap niet gemakkelijk geclassificeerd kunnen worden, zijn realia.
  • De groepen van zoekmachines op Internet

Verder dienen classificaties er ook voor dat er makkelijker gecommuniceerd kan worden. Voorbeelden van classificatiesystemen:

Voorbeelden van een classificatiesysteem voor geheimhouding bewerken

Spreekt men bij defensie van een geclassificeerd document, dan betekent dit dat het document in meer of mindere mate geheim is. Er zijn de volgende gradaties van geheimhouding:

  1. zeer geheim (top secret),
  2. geheim (secret),
  3. vertrouwelijk of confidentieel (confidential),
  4. dienstgeheim (restricted).

Alle andere documenten zijn niet geclassificeerd (unclassified) en mogen dus zonder meer openbaar worden gemaakt.

De classificatie moet boven- en onderaan elke pagina van een geclassificeerd document worden vermeld. Een geclassificeerd document mag niet per post worden verstuurd.

Identificeren of determineren bewerken

Het identificeren, categoriseren, diagnosticeren of determineren kan in verschillende stappen worden onderverdeeld:

  1. Het kiezen van het classificatiesysteem.
  2. Het analyseren van een object: het onderzoek naar de betrokken kenmerken.
  3. Het op grond van de waarden van de kenmerken bepalen tot welke groep het object behoort.

Ook de termen diagnose en diagnosticeren worden hier wel gebruikt. Meer specifiek wordt het woord diagnose op het medische vlak gebruikt: door een diagnose wordt een ziekte geïdentificeerd vanuit optredende symptomen.

In de biosystematiek is een diagnose van een soort een beschrijving van de kenmerken aan de hand waarvan organismen van die soort ondubbelzinnig kunnen worden gedetermineerd (op naam gebracht, geïdentificeerd), meestal in vergelijking met verwante soorten. Vaak is daarvoor maar een beperkt aantal kenmerken noodzakelijk. Voor de wetenschappelijke beschrijving werd de diagnose meestal in het Latijn gegeven. De verdere beschrijving wordt dan gedaan in een gangbare taal naar keuze, zoals Engels, Chinees, Frans, Japans.

Organisaties bewerken

Er is een aantal organisaties die zich op wetenschappelijke wijze bezighouden met classificaties.

In Nederland:

  • VOC (Vereniging voor Ordinatie en Classificatie, opgericht 1989)

Internationaal:

  • CLAD (Associação Portuguesa de Classificação e Análise de Dados)
  • BCS (British Classification Society)
  • CSNA (Classification Society of North America)
  • GfKl (Gesellschaft für Klassifikation)
  • ICTV (International Comittee on Taxonomy of Viruses)
  • IFCS (International Federation of Classification Societies)
  • IPRCS (Irish Pattern Recognition and Classification Society)
  • JCS (Japanese Classification Society)
  • SFC (Société Francophone de Classification)
  • SIS (Società Italiana di Statistica)
  • SoCCCAD (Central American and Carribean Society of Classification and Data Analysis)

Zie ook bewerken