Wikipedia:Wikiproject/WikidataOpWikipedia/OpenRefine
OpenRefine (vroeger Google Refine) is een tool om gestructureerde data te ordenen, op te schonen, te verrijken, te reconciliëren met Wikidata en uiteindelijk op te laden naar Wikidata. Tevens kan OpenRefine worden gebruikt om lijsten uit Wikidata te halen (alternatief voor Wikidata Query).
Gebruik bewerken
Deze tool wordt lokaal geïnstalleerd op een werkstation (laptop, desktop) als een lokale web server. De data blijft lokaal op het systeem tot het wordt opgeladen naar Wikidata. Deze tool kan handig worden gebruikt om Wiki projecten voor het voorbereiden:
- QuickStatements (alternatief voor het rechtstreeks opladen via OpenRefine)
- manueel aanvullen en corrigeren van data via Wikidata
- ophalen van lijsten via Wikidata Query
- maken van lijsten op Wikipedia via ListeriaBot
Denk op voorhand na over het (logisch) data model dat je wilt hanteren (Welke eigenschappen wil je documenteren en hoe wil je de items koppelen met andere items?).
Het is hierbij heel erg belangrijk dat je de items kunt groeperen en oplijsten: b.v. via archieflocatie, onderhouden door wikiproject, beschreven door bron, Commonscategorie, eigendom van, op focuslijst van Wikimedia-project, onderdeel van, organisator, werken in collectie. Dit maakt het eenvoudig om alle items terug te vinden via b.v. Wikidata Query, ofwel via "Verwijzingen naar deze pagina". Dit laat je ook toe om via ListeriaBot lijsten op te stellen van ontbrekende, of reeds bestaande Wikipedia artikelen in de verschillende talen. Ideaal om schrijfsessies voor te bereiden en te begeleiden.
Datavalidatie bewerken
Om data-anomalieën te vermijden moet data worden gevalideerd en indien nodig worden bewerkt, alvorens op te laden naar Wikidata.
Voor het opladen - in een spreadsheet bewerken
- Verwijder dubbele rijen, of voeg ze samen (vermijd aldus het aanmaken van dubbele items)
- Sorteer op label
- Excel laat toe om dubbels te verwijderen, maar dit laat niet toe om de juiste rij te kiezen (dus je moet manueel de selectie doen)
- Controleer en verbeter hoofdletters en kleine letters
- Geen ( ) of "," in labels
- Maak een mogelijkse omwisseling van voornaam en familienaam ongedaan
- Voeg eventueel ontbrekende kolommen toe
Na het opladen in OpenRefine bewerken
- Trim alle tekst-kolommen (vermijd problemen met dubbele spaties bij concatenatie, b.v. label op basis van voornaam + familienaam)
- Reconcilieer eerst alle attributen (geboorteplaats, plaats van overlijden, beroep, werklocatie, ambt)
- Maak ontbrekende waarden aan in Wikidata (b.v. voornaam, familienaam, beroep, werkveld)
- Let op om een dubbele items te maken (homoniemen)
- Zoek met Wikidata indien OpenRefine geen match vindt
- Eventueel een alias toevoegen in Wikidata
- Reconcilieer het item met Wikidata:
- Opgelet voor homoniemen, of pseudoniemen; check geboorte- en sterfdatum, geboorteplaats en plaats van overlijden, beroep
- Vader en zoon hebben dikwijls dezelfde naam...
- Personen kunnen gekend zijn onder een andere naam (meisjesnaam, huwelijk, meerdere voornamen, suffixen, prefixen)
- Gebruik eigenschap niet gelijk aan om homoniemen te identificeren
- Verenigingen, bedrijven, en organisaties zijn dikwijls gekend onder verschillende (historische) namen
- Vul bestaande items aan met ontbrekende statements, op basis van individuele reconciliatie van eigenschappen, b.v. geboorteplaats, geboortedatum
- Voeg een tijdelijke kolom toe op basis van gereconcilieerde items
- Filter op ontbrekende eigenschappen
- Maak een schema om de ontbrekende statements op te laden
- Overschrijf geen bestaande data, maak geen dubbele registraties
- Maak nieuwe items aan, waarbij alle beschikbare eigenschappen gerepliceerd worden
- Zowel voor aanpassingen als het aanmaken van nieuwe items:
- Gebruik bronnen wanneer beschikbaar (voor items: beschreven door bron, beschreven op URL; voor statements: vermeld in)
- Voor websites, gelieve de taal van werk of naam te vermelden
- Opgelet voor homoniemen, of pseudoniemen; check geboorte- en sterfdatum, geboorteplaats en plaats van overlijden, beroep
Na het opladen naar Wikidata bewerken
- Manuele controle en verdere aanpassingen en toevoegingen
- Uit mekaar halen van verkeerd geïdentificeerde items
- Samenvoegen van per ongeluk aangemaakte dubbele items
- Controleer op dubbele, tegenstrijdige of overlappende statements
Documentatie bewerken
Hieronder volgen enkele handige links om meer te leren over het gebruik van OpenRefine:
- openrefine.org, de site om OpenRefine te downloaden
- Gebruikersdocumentatie en handige links
- Documentatie op Wikidata
- OpenRefine presentatie
- Video's
- (vul aan)