Wikipedia:Wikiproject/WikidataOpWikipedia/OpenRefine

OpenRefine presentatie

OpenRefine (vroeger Google Refine) is een tool om gestructureerde data te ordenen, op te schonen, te verrijken, te reconciliëren met Wikidata en uiteindelijk op te laden naar Wikidata. Tevens kan OpenRefine worden gebruikt om lijsten uit Wikidata te halen (alternatief voor Wikidata Query).

Gebruik bewerken

Deze tool wordt lokaal geïnstalleerd op een werkstation (laptop, desktop) als een lokale web server. De data blijft lokaal op het systeem tot het wordt opgeladen naar Wikidata. Deze tool kan handig worden gebruikt om Wiki projecten voor het voorbereiden:

  • QuickStatements (alternatief voor het rechtstreeks opladen via OpenRefine)
  • manueel aanvullen en corrigeren van data via Wikidata
  • ophalen van lijsten via Wikidata Query
  • maken van lijsten op Wikipedia via ListeriaBot

Denk op voorhand na over het (logisch) data model dat je wilt hanteren (Welke eigenschappen wil je documenteren en hoe wil je de items koppelen met andere items?).

Het is hierbij heel erg belangrijk dat je de items kunt groeperen en oplijsten: b.v. via archieflocatie, onderhouden door wikiproject, beschreven door bron, Commonscategorie, eigendom van, op focuslijst van Wikimedia-project, onderdeel van, organisator, werken in collectie. Dit maakt het eenvoudig om alle items terug te vinden via b.v. Wikidata Query, ofwel via "Verwijzingen naar deze pagina". Dit laat je ook toe om via ListeriaBot lijsten op te stellen van ontbrekende, of reeds bestaande Wikipedia artikelen in de verschillende talen. Ideaal om schrijfsessies voor te bereiden en te begeleiden.

Datavalidatie bewerken

Om data-anomalieën te vermijden moet data worden gevalideerd en indien nodig worden bewerkt, alvorens op te laden naar Wikidata.

Voor het opladen - in een spreadsheet bewerken

  • Verwijder dubbele rijen, of voeg ze samen (vermijd aldus het aanmaken van dubbele items)
    • Sorteer op label
    • Excel laat toe om dubbels te verwijderen, maar dit laat niet toe om de juiste rij te kiezen (dus je moet manueel de selectie doen)
  • Controleer en verbeter hoofdletters en kleine letters
  • Geen ( ) of "," in labels
  • Maak een mogelijkse omwisseling van voornaam en familienaam ongedaan
  • Voeg eventueel ontbrekende kolommen toe

Na het opladen in OpenRefine bewerken

  • Trim alle tekst-kolommen (vermijd problemen met dubbele spaties bij concatenatie, b.v. label op basis van voornaam + familienaam)
  • Reconcilieer eerst alle attributen (geboorteplaats, plaats van overlijden, beroep, werklocatie, ambt)
  • Maak ontbrekende waarden aan in Wikidata (b.v. voornaam, familienaam, beroep, werkveld)
    • Let op om een dubbele items te maken (homoniemen)
    • Zoek met Wikidata indien OpenRefine geen match vindt
    • Eventueel een alias toevoegen in Wikidata
  • Reconcilieer het item met Wikidata:
    • Opgelet voor homoniemen, of pseudoniemen; check geboorte- en sterfdatum, geboorteplaats en plaats van overlijden, beroep
      • Vader en zoon hebben dikwijls dezelfde naam...
    • Personen kunnen gekend zijn onder een andere naam (meisjesnaam, huwelijk, meerdere voornamen, suffixen, prefixen)
    • Verenigingen, bedrijven, en organisaties zijn dikwijls gekend onder verschillende (historische) namen
    • Vul bestaande items aan met ontbrekende statements, op basis van individuele reconciliatie van eigenschappen, b.v. geboorteplaats, geboortedatum
      • Voeg een tijdelijke kolom toe op basis van gereconcilieerde items
      • Filter op ontbrekende eigenschappen
      • Maak een schema om de ontbrekende statements op te laden
      • Overschrijf geen bestaande data, maak geen dubbele registraties
    • Maak nieuwe items aan, waarbij alle beschikbare eigenschappen gerepliceerd worden
    • Zowel voor aanpassingen als het aanmaken van nieuwe items:

Na het opladen naar Wikidata bewerken

  • Manuele controle en verdere aanpassingen en toevoegingen
  • Uit mekaar halen van verkeerd geïdentificeerde items
  • Samenvoegen van per ongeluk aangemaakte dubbele items
    • Controleer op dubbele, tegenstrijdige of overlappende statements

Documentatie bewerken

Hieronder volgen enkele handige links om meer te leren over het gebruik van OpenRefine:

  1. openrefine.org, de site om OpenRefine te downloaden
  2. Gebruikersdocumentatie en handige links
  3. Documentatie op Wikidata
  4. OpenRefine presentatie
  5. Video's
  6. (vul aan)