Gebruiker:RonnieBot/Project weespagina's

Een van de krachten van internet is dat informatie aan elkaar gekoppeld kan worden. Je leest een pagina over een onderwerp en vindt op andere pagina's meer informatie. Wikipedia is hierop geen uitzondering. Moest je bij een klassieke encyclopedie een ander deel uit de kast trekken en daarin het juiste lemma opzoeken, op Wikipedia ligt dat binnen handbereik. Althans, als de bewerkers van een artikel daarvoor verwijzingen (links) hebben aangebracht.

Toch zijn er ook op Wikipedia heel veel pagina's die niet via links vanuit een andere pagina bereikt kunnen worden. Deze pagina's worden aangeduid als weespagina. Een speciale pagina geeft deze weespagina's alfabetisch weer en die pagina kan dienen als inspiratie voor iedereen om alsnog naar een daar staande pagina te verwijzen. Deze pagina wordt (anno juli 2019) iedere drie dagen ververst.

In 2018 (en al vele jaren daarvoor) toonde deze pagina 5000 links die alle begonnen met een A en niet verder kwam dan Ae... Op de Nederlandse Wikipedia zijn namelijk in het verleden veel artikelen over planten en dieren aangemaakt, waarbij veelal is nagelaten om deze te noemen op de pagina van hetgeen iets hoger in de taxoboom staat (of die pagina is nooit aangemaakt). Hierdoor verloor de pagina met weespagina's haar nut.

Start bewerken

Om hier duidelijkheid in te scheppen, ben ik begonnen om de vermeldingen van plantjes en diertjes handmatig uit deze lijsten te vissen. Een monnikenwerk en het schoot ook niet echt op, ook omdat er na iedere 5000 artikelen gewacht moest worden op een verversing van de pagina. En langzaam groeide het lijstje pagina's dat ik moest overslaan. De ontstaansgeschiedenis van Weespagina's/Flora en fauna A laat zien dat die drie weken besloeg. Met nog 25 letters te gaan is wel aan de letter B (en later C) begonnen, maar ben ik ook gaan nadenken over een andere opzet. Na wat stoeien met Python en Pywikibot en een flinke speurtocht kon RonnieBot op 11 juli vorig jaar lijsten voor mij opstellen met alle pagina's met een taxobox of daarvan afgeleide informatiebox. Dit bracht de mogelijkheid om in een keer de pagina's voor alle letters aan te maken. Een uitdaging werd nog dat Wikipedia 'maar' 2MB per pagina toeliet, waardoor voor sommige letters de pagina in stukjes gehakt moest worden. Het navigatiesjabloon kende dan ook voor verschillende letters een onderverdeling.

Hiermee was er in ieder geval inzicht in de niet van een taxobox voorziene pagina's, waardoor Speciaal:Weespagina's zich meer kon bezighouden met de andere pagina's. Maar op termijn was het natuurlijk wel wenselijk om de 'flora en fauna'-pagina's ook te ontdoen van de pagina's die al gelinkt werden. De andere weespagina's werden op beginletter gesorteerd. Het licht dat er nu viel op de overige pagina's is onder meer gebruikt om andere groepen uit de lijst te distilleren, zoals Lijst van plaatsen in Italië, Lijst van plaatsen in India en Lijst van plaatsen in overig Indonesië.

In de lijst bleven redelijk wat pagina's over personen over en dit inspireerde me tot Gebruiker:RonnieBot/Project geboorte- en overlijdenslijsten.

De volgende stap was het kunnen onderscheiden van pagina's met èn pagina's zonder inkomende link. Hierdoor was het mogelijk om de via de taxobox-lijst aangevulde flora en fauna-pagina's te ontdoen van de pagina's die geen weespagina bleken te zijn. En daarna konden de subpagina's per letter (gelukkig) opgeheven worden.

Status bewerken

Medio 2019 loopt RonnieBot op onregelmatige momenten de 27 lijsten met 'gewone' weespagina's en de 26 lijsten met flora en fauna-weespagina's na. Uit alle lijsten worden de artikelen verwijderd die inmiddels wel gelinkt zijn. Ook worden artikelen die als wees zijn aangemerkt en meer dan 15 dagen geleden gestart zijn toegevoegd aan de betreffende gewone lijst. Door het verschil in aantallen worden de gewone weespagina's iets vaker gecontroleerd.

Toekomstplannen bewerken

Ik wil er nog naar toe dat de pagina's met 'gewone' weespagina's wekelijks (of driedaags) beoordeeld worden, zodat het lijstje actueel blijft. Voor de flora en fauna-lijsten wil ik er naartoe dat deze in ieder geval maandelijks bekeken worden. Hierbij kies ik voor een passende balans tussen het aantal wijzigingen en de benodigde hoeveelheid dataverkeer voor het controleren van deze lijsten.

Dit project is redelijk makkelijk toe te passen op anderstalige Wikipedia, in ieder geval degenen die in het Latijnse schrift communiceren. De hoeveelheid tekst die in de lokale tekst benodigd is, is beperkt.

Code bewerken

Ik wil de hier gebruikte code eerdaags herzien en daarna beschikbaar stellen op GitHub. Tot die tijd moet er nog even geduld betracht worden.

Suggesties? Vragen? Opmerkingen? bewerken

Op de overlegpagina zijn deze van harte welkom.