Gebruiker:RonnieBot/Project geboorte- en overlijdenslijsten

Op de Nederlandstalige Wikipedia hebben we onder meer biografieën van levende en overleden personen. Zoals ook bij het eerste project vermeld, is een van de krachtige elementen van Wikipedia (ten opzichte van een papieren encyclopedie) dat je eenvoudig van het ene artikel naar het andere artikel kan switchen.

In heb verleden heb ik pogingen ondernomen om onder meer de biografielijsten wat meer gestructureerd en compleet te krijgen. Een van de voor mij toen frustrerende gedachten was dat het een eeuwigdurend project zou zijn, aangezien er dagelijks biografieën bijkomen op de Nederlandse Wikipedia. Een andere frustratie was dat het vastleggen van deze gegevens handwerk was, en dat dit in alle projecten afzonderlijk opgepakt moest worden.

Sindsdien is Wikidata gekomen. Hierin staan (bijna) alle pagina's in de verschillende wikiprojecten aangegeven, maar ook staan er bij heel veel onderwerpen veel gegevens. Zo is op een pagina over een bepaalde persoon vaak informatie te vinden over de naam, geboortedatum, sterfdatum, nationaliteit en de belangrijkste bezigheden van die persoon. Dit zijn ongeveer ook de gegevens die we opnemen in een handmatige lijst van overlijden. Deze lijsten vergen een hoop handwerk, worden vaak maar door enkele bewerkers bijgehouden, bewerkers die beperkte tijd beschikbaar hebben en van wie de focus doorgaans op bepaalde interessegebieden zal liggen (heel menselijk!). Hierdoor omvatten deze lijsten maar een (klein) deel van de artikelen op de Nederlandse Wikipedia. Ook de vermeldingen op de jaarpagina's en op dagpagina's zijn niet compleet.

Op Wikidata is (bijna) al deze informatie voorhanden. Daarnaast is Wikidata minder subjectief (meer intersubjectief) dan een handmatig bijgehouden lijst en is het aannemelijk dat informatie over personen die zich in verre uithoeken of in niches ophouden eerder wordt opgemerkt. Het overlijden van die Japanse voetballer die ooit een blauwe maandag in Engeland speelde maar daarna weer naar zijn geboorteland is getrokken zal waarschijnlijk in Japan eerder opgemerkt worden dan in Nederland.

Start bewerken

In oktober 2018 zagen de eerste lijsten het licht, naar aanleiding van deze vraag in de kroeg van Trijnstel. RonnieBot begon met de lijsten van geboortes per jaar. Hier was al een traject vooraf gegaan, waarbij de informatie verzameld werd uit Wikidata. De onwenselijkheid van sommige aanduidingen was reden om een aantal mensen te onderdrukken.

Vervolgstappen bewerken

In de afgelopen maanden zijn verschillende verfijningen doorgevoerd. Ook zijn de lijsten op geboortedatum en op het jaar en de datum van overlijden toegevoegd.

Keuzes bewerken

Bij het ontwikkelen van de code voor dit project heb ik verschillende keuzes gemaakt. Een aantal zal ik hieronder toelichten.

Aparte of gecombineerde lijsten?

Het accent van de biografieën op deze Wikipedia ligt bij de biografieën van mensen geboren in de twintigste eeuw. Het aantal mensen dat hier beschreven is en geboren is in 44 na Christus is veel kleiner. Om die reden zijn de lijsten voor die jaren per tien jaar samengenomen. Als scheidslijn heb ik gehanteerd dat ik ging splitsen als ik op de gecombineerde pagina meer dan 500 vermeldingen zou krijgen. Dat leidde toen tot afzonderlijke jaarlijsten vanaf 1740 (geboortes) en na 1799 (overlijdens). Het is eenvoudig om dit op enig moment aan te passen.

Decennia

Hoewel het gebruikelijk is dat een decennium loopt vanaf het jaar 1 tot het volgende tiental (bijvoorbeeld 1971-1980), zijn er in het verleden op deze Wikipedia keuzes gemaakt om dat anders te doen en decennia bij het jaar 0 te laten beginnen, bijvoorbeeld 1970-1979. Aangezien dit op dit moment vrij zwaar verankert zit in diverse categorieën heb ik me daarbij aangesloten. Het eerste 'decennium' van onze jaartalling beslaat derhalve slechts negen jaar.

Opschonen van gegevens (overlijdens in het huidige jaar)

In de overlijdenslijst van het huidige jaar worden natuurlijk de overlijdens gemeld van personen die beschreven staan in de Nederlandstalige Wikipedia (indien bekend op Wikidata). Daarnaast is het redelijk gebruikelijk om recente overlijdens van (nog) niet beschreven personen ook te melden. RonnieBot vermeldt deze overlijdens dan ook zo veel mogelijk voor personen overleden in de lopende maand en de twee voorgaande maanden. Bij de eerste verversing in een nieuwe maand wordt de lijst dan ook (even) korter.

Status bewerken

De code voor het verzamelen van de gegevens van Wikidata en voor het schrijven naar Wikipedia is redelijk gestabiliseerd. Ik vermoed dat hier nog wel verbeteringen in mogelijk zijn, waardoor de doorlooptijd korter zou kunnen worden.

Gegevens bewerken

Afbeeldingen bewerken

RonnieBot is voorzien van de afbeeldingen die -alweer een tijd geleden- op diverse handmatige lijsten stonden. Daarna is -vooralsnog eenmalig- gekeken bij welke biografieën op de Nederlandstalige Wikipedia een afbeelding beschikbaar was. Deze twee lijsten zijn gecombineerd, waardoor een rijk assortiment aan afbeeldingen getoond kan worden. Niet alle afbeeldingen geven de betreffende persoon weer. Om hier meer zicht op te krijgen, is een overzicht gemaakt van de afbeeldingen die RonnieBot gebruikt. De lijst is geordend op het Q-nummer van het betreffende item (persoon).

Op verzoek kunnen afbeeldingen uit deze verzameling verwijderd worden. Dat kan gebeuren door ze te melden op deze pagina. Na menselijke beoordeling zal deze lijst verwerkt worden en zullen de betreffende afbeeldingen niet meer worden opgenomen in de lijsten. Suggesties voor bijschriften kunnen hier doorgegeven worden. Suggesties voor andere afbeeldingen kunnen - vooralsnog - gemaild worden aan RonnieV. Hiervoor komt ook een mogelijkheid om deze direct aan te leveren.

Het opnieuw inlezen van de gegevens van Wikidata staat niet gepland. Een dergelijke leesactie vergt de nodige tijd en de opbrengst kan interfereren met de na de eerdere leesactie aangebrachte wijzigingen in de fotoverzameling.

Toekomstplannen bewerken

Zelfstandigheid bewerken

Op dit moment worden de lees- en schrijfacties van RonnieBot beide handmatig opgestart.
In de toekomst is het wenselijk dat RonnieBot het ophalen van de gegevens en het plaatsen ervan geheel zelfstandig afhandelt. Dan wordt er meerdere malen per dag gekeken wat er allemaal veranderd is. Is het lezen van de gegevens voldoende snel verlopen (zeg binnen 30 minuten), dan worden de pagina's bijgewerkt. Heeft het langer geduurd, dan worden eerst de nieuwere bewerkingen overgenomen en vindt daarna opnieuw een tijdsvergelijking plaats. Om te voorkomen dat RonnieBot hierdoor in een eindeloze wachtlus verzeild raakt, bijvoorbeeld tijdens grootschalige aanvulling van de gegevens, zal de wachttijd bij iedere nieuwe lus verlengd worden. Is de tweede leesronde binnen 35 (30 + 5) minuten voltooid, dan wordt dit als afdoende beschouwd en worden de gegevens op Wikipedia bijgewerkt. Is een derde leesronde nodig, dan wordt daarna gekeken of de oudste leesactie van deze ronde niet meer dan 40 minuten oud is, enzovoorts. Na een schrijfronde wordt de streeftijd weer op 30 minuten gezet.

Internationalisering bewerken

Dit project leent zich voor een internationale uitrol, naar grote, maar zeker ook naar kleinere projecten. Wikidata biedt al van veel onderdelen een beschrijving in diverse talen, maar er zullen ongetwijfeld nog veel beroepen en titels zijn die een vertaling kunnen gebruiken. Vanuit de code worden enkele stukken tekst geschreven, waarvoor vertalingen nodig zijn. Daarnaast lijkt aanpassing nodig van een stukje code, omdat sommige talen (zoals het Frans) onderscheid maken tussen mannelijke en vrouwelijke personen in de aanduiding, bijvoorbeeld naast née. Een tijdelijke oplossing zou het gebruik van né(e) kunnen zijn, maar als het gender van een persoon bekend is, is het wel zo netjes om dit goed weer te geven.

Code bewerken

Ik wil de hier gebruikte code eerdaags herzien en daarna beschikbaar stellen op GitHub. Tot die tijd moet er nog even geduld betracht worden.

Suggesties? Vragen? Opmerkingen? bewerken

Op de overlegpagina zijn deze van harte welkom.