Overleg gebruiker:Josq/Onderzoek kwaliteitsgroei

Laatste reactie: 16 jaar geleden door Josq in het onderwerp voortgang....

Betrouwbaarheid

bewerken

Geachte Josq, Ik kwam deze pagina tegen via uw bijdragenlijst. Als gedachtenexperiment vind ik dit zeker leuk. Mij viel het volgende op: u focust op vijf criteria om de kwaliteit te meten. Prima! Maar naar mijn idee mist u de hoofdzaak: Is dit artikel min of meer in overeenstemming met de feiten, dan wel de wetenschappelijk geaccepteerde opvattingen? Enige subjectiviteit speelt hier zeker een rol. Ben Pirard zal het huidige lemma Amazonen met een '3' of '4' beoordelen. Zelf zal ik dit beoordelen met een '0'. Toch lijkt mij de vraag "klopt de inhoud, of is dit kolder?" zeer wezenlijk als de kwaliteit gemeten wordt. In feite zelfs belangrijker dan de andere vijf criteria bij elkaar! Denk eroverna! vriendelijke groet, S.Kroeze 11 okt 2007 15:29 (CEST)Reageren

Dank voor uw belangstelling! Hier heb ik zeker al over nagedacht. Heel bewust heb ik er niet voor gekozen om 'inhoudelijke correctheid' als te beoordelen kriterium op te nemen. De reden hebt u eigenlijk al genoemd: het is niet haalbaar. Om te beoordelen op juistheid zijn deskundigen nodig, en ook deskundigen kunnen elkaar nogal in de haren vliegen. Wij beschikken niet over deskundigen.
Zelfs al zouden we deskundigen gebruiken, dan moet je het principe opgeven dat iedereen een willekeurig artikel beoordeelt. Met het gevaar van een zekere bias.
Vervolgens: het gaat mij bij de kwaliteit vooral om de indruk die de (toevallige) lezer krijgt. Tot in hoeverre ervaart de lezer het artikel als bruikbaar? De lezer zal ook niet kunnen beoordelen op juistheid.
Tenslotte: het onderzoek naar de betrouwbaarheid van Wikipedia-artikelen is al uitgevoerd. U hebt vast wel gehoord van de geruchtmakende Nature-publicatie over de vergelijking tussen Wikipedia en Encyclopaedia Britannica.
Ik hoop dat dit voldoende argumenten zijn om u te overtuigen dat we het kriterium van inhoudelijke correctheid niet kunnen en hoeven op te nemen in dit onderzoek.
Tenslotte: u zegt dit leuk te vinden als gedachtenexperiment. Ik had eigenlijk in gedachten dit onderzoek ook daadwerkelijk uit te voeren. Wat denkt u daarvan? Josq 11 okt 2007 15:44 (CEST)Reageren
Geachte Josq, Ik denk dat dit zeker uitvoerbaar is en wil ook zelf eventueel meedoen. Ik begrijp waarom u betrouwbaarheid liever niet als criterium gebruikt. Zelf zou ik over niet-historische artikelen ook geen zinnig oordeel kunnen geven en het is juist belangrijk dat de artikelen willekeurig gekozen worden. Tegelijkertijd zal dit de achilleshiel van dit onderzoek blijken. Het wordt eerder een onderzoek naar lay-out en stijl. Zeker niet onbelangrijk, maar niet wezenlijk.
Zelf plaats ik grote vraagtekens bij de uitkomst van het Nature-onderzoek. Ik heb zeer veel vertrouwen in de Britannica en weinig in wikipedia, zelfs niet in de Duitse, die ongetwijfeld beter is dan de Nederlandse. Toch zie ik wel een stijgende lijn.
Overigens liggen uw vijf meetmomenten nogal dicht bij elkaar. Ik verwacht dat vaak nauwelijks significante verandering in het artikel zal hebben plaatsgevonden. Er zijn heel veel artikelen die puur inhoudelijk nog steeds de vorm hebben die de oorspronkelijke maker eraan gegeven heeft. Als die ophoudt met schrijven stopt ook de ontwikkeling van het artikel. Desondanks een leuk experiment! Succes ermee en nog bedankt voor uw lay-outwerk! Zelf vind ik zo het prachtige gedicht van Rilke beter uitkomen. vriendelijke groet, S.Kroeze 11 okt 2007 16:05 (CEST)Reageren
Dank voor uw commentaar en uw bereidheid hieraan mee te doen!
U zegt dat de meetmomenten nogal kort bij elkaar liggen. Denkt u dat het beter is een bredere range te kiezen? Op zich meten we al over een periode van 1,5 jaar. Als we over een periode van pak 'm beet een jaar langer willen meten, wordt het aanzienlijk moeilijker daarvoor artikelen te vinden. Maar misschien is het de moeite waard, ik zal er eens over denken.
Er zijn heel veel artikelen die puur inhoudelijk nog steeds de vorm hebben die de oorspronkelijke maker eraan gegeven heeft. Dat geloof ik ook, maar dat is een van de dingen die ik ook echt wil onderzoeken. Dan kun je zo'n bewering beter op waarde schatten. Ik ben bijvoorbeeld benieuwd naar de trends die je ziet bij het kriterium 'indeling'.
Vriendelijke groet, Josq 11 okt 2007 16:14 (CEST)Reageren

Aantal

bewerken

Puur vanwege de belangrijkheid van zo'n onderzoek doe ik mee. Ik vind dat veel vaste gebruikers moeten beseffen dat het bijna een plicht is om mee te helpen aan dit onderzoek.

Josq, naar hoeveel beoordeelde artikelen streef je? Vijf per gebruiker stel je nu, met misschien een verhoging. Dit is niet zo veel, aangezien ik verwacht dat er niet veel gebruikers bereid zijn om aan dit onderzoek mee te doen. Ik schat dat ongeveer 5 gebruikers de belangrijkheid van dit onderzoek inzien en dus mee doen. 5 x 5 = 25 en daarmee veel te weinig. Ik denk dat 15 x 15 = 225 beter is. Maar het is zeer moeilijk om dit te bereiken. Ik hoop echter dat 10 x 35 = 350 het uiteindelijke aantal wordt. Hiervoor moeten de meeste (vaste) gebruikers wel hun door mij eerder genoemde plicht vervullen.

Dan moet ik eigenlijk nog zeggen dat dit weinig is. De wiki telt ±370000 artikelen, waarvan volgens jouw zeggen 5% = 18500 artikelen in aanmerking komen voor het onderzoek. Als we dan in het meest positieve getal 350 artikelen onderzocht krijgen, dan hebben we een steekproef van 1,89% (350/18500*100) van de in aanmerking komende artikelen. Ik vrees dat dit niet genoeg is om een goede conclusie te trekken. Om dit laatste percentage te verhogen, moet je misschien toch met een select groepje meer artikelen onderzoeken dan anderen. Hierdoor krijg je de door jou genoemde bias (misschien), maar hierdoor krijgen je conclusies wel meer waarde.

Samenvattend wil ik eigenlijk zeggen dat we genoeg artikelen moeten onderzoeken om waardevolle conclusies te mogen trekken. Om de conclusies van dit in mijn ogen zeer belangrijke onderzoek nuttig en waardevol te maken, vind ik dat iedere regelmatige/vaste bijdrager zich geroepen moet voelen om mee te helpen. Hoe meer gebruikers mee werken, hoe minder artikelen een gebruiker hoeft te bekijken. Want vele handen maken nog steeds licht werk. Rubietje88 11 okt 2007 20:02 (CEST)Reageren

Over de steekproef: ik ben wel heel wat van m'n statistische kennis vergeten, maar sociologische onderzoeken hebben niet zo'n grote populatie nodig om representatief te zijn. Willekeurige landelijke steekproeven op allerlei gebied zijn over het algemeen tussen de 1000-1500 groot, en daarbij is de non-respons al begrepen. Wat belangrijk is, is dat de steekproef willekeurig is (dat heeft Josq ondervangen) en daarna wordt een zekere onnauwkeurigheid meegewogen volgens de kansberekening. Bovendien wil Josq de groei van kwaliteit meten over een bepaalde periode. Als de uitkomst is dat 50% van de steekproef nooit meer is gewijzigd in twee jaar, zal dat betekenen dat (afhankelijk van de foutmarge) zo ongeveer 45-55% van de artikelen gelijk is gebleven. Je moet dus een marge afspreken, waarbij je vindt dat x procent van de steekproef significant is verbeterd, enzovoort. Dat is met 350 atikelen denk ik wel te doen. - Art Unbound 11 okt 2007 21:00 (CEST)Reageren
Even over die 5 procent: Er zijn slechts ruim 40.000 artikelen die vóór 2005 aangemaakt zijn, dat is ruim 10% van het huidige aantal artikelen. Ik denk dat hiervan minder dan de helft aan de overige criteria voldoet. Overigens zijn in de 370.000 geen beg's en dp's etc meegerekend, dus qua aantal keer klikken op 'willekeurig artikel' valt de boel nog wat ongunstiger uit.
Over de grootte van de steekproef: we zien wel hoeveel artikelen we geanalyseerd krijgen. Zelf zit ik te denken aan een minimum van 200, zodat we ook subgroepen van artikelen kunnen vergelijken. De statistische berekeningen maken dan achteraf wel duidelijk hoe betrouwbaar de resultaten zijn. Ook het significantieniveau kan op verschillende wijzen afgesproken worden, die je desnoods met elkaar kunt vergelijken. Josq 11 okt 2007 23:43 (CEST)Reageren

Criteria

bewerken

Ik vind het jammer dat je er niet voor gekozen hebt om de criteria in overeenstemming te brengen met die welke in gebruik zijn bij Wikipedia:Kwaliteitsoffensief. De weinige richtpunten die we hebben lopen nu ook nog langs elkaar. Zoals al gezegd: meting van het belangrijkste criterium betrouwbaarheid is praktisch niet haalbaar; dan zou je de overige zoveel mogelijk moeten coördineren. Misschien kan dat alsnog?

Er is trouwens wel iets waar betrouwbaarheid mee te meten valt: onevenredige aandacht voor één aspect leidt tot onevenwichtigheid en daarmee daalt de kwaliteit. Het probleem dat S. Kroeze aangeeft is daarmee wel te ondervangen.

Overigens sluit ik me aan bij de opmerkingen van Rubietje: een gebruiker kan best wat meer artikelen bekijken zonder dat bias optreedt, ook omdat het gaat over verschillende onderwerpen. Als een bioloog 50 artikelen over biologie zou doen wordt het wat anders. - Art Unbound 11 okt 2007 20:42 (CEST)Reageren

Hartelijk dank voor de feedback
Misschien is die 5 inderdaad wat laag, ik ga het verhogen naar 10. Hoger durf ik nog even niet, want medewerkers zijn natuurlijk vrij om slechts 1 bijdrage te leveren.
Op Wikipedia:Kwaliteitsoffensief vind ik de door jou bedoelde criteria niet terug, kun je ze hier noemen?
Ten behoeve van de betrouwbaarheid zijn er in het huidge voorstel twee criteria die daar wat over zeggen: volledigheid (incl neutraliteit/evenwichtigheid) en referenties. Vriendelijke groet, Josq 11 okt 2007 23:27 (CEST)Reageren
Ik vermoed dat Art Unbound doelt op Wikipedia:Kwaliteitsschaal. Misschien dat je ook iets kan doen met deze lijst van etalageartikels met of zonder referenties? Evil berry 12 okt 2007 08:05 (CEST)Reageren

Begin

bewerken

Wanneer is het concept af en kunnen we beginnen met onderzoeken? (of denk je dat het kan beginnen) Rubietje88 12 okt 2007 17:04 (CEST)Reageren

Ik denk volgende week dinsdag ofzo. Nog even afwachen of er reacties binnenkomen. En er zijn og een paar dingen waar ik zelf nog even wat langer over wil nadenken. Bijvoorbeeld over de criteria: zijn die bruikbaar of moeten ze anders worden geformuleerd? En hoe zit het met kleine verbeteringen, wil je die ook zichtbaar maken met dit onderzoek, en zo ja, hoe? Dus als je ideeen hebt hoor ik het graag ;) Josq 12 okt 2007 17:09 (CEST)Reageren
En wat als een artikel tussen twee mijlpaaldata niet is gewijzigd? Zelfde versie beoordelen, regel leeg laten, of ander artikel kiezen? RToV 12 okt 2007 17:39 (CEST)Reageren
De versie beoordelen die actueel was op de mijlpaaldatum. M.a.w. zelfde versie beoordelen. Daarmee maak je zichtbaar dat er over de periode tussen de twee mijlpalen helaas geen kwaliteitsgroei is geweest. Josq 12 okt 2007 17:40 (CEST)Reageren
Oke, volgende week dinsdag. Is goed, het valt trouwens te hopen dat er wat meer gebruikers mee doen. T.z.t. nog maar weer eens in de Kroeg en op Mededelingen melden. Rubietje88 12 okt 2007 18:00 (CEST)Reageren
Dat was ik van plan ;) Josq 12 okt 2007 18:08 (CEST)Reageren
bewerken

Iets anders: het lijkt me handig om in de tabel permalinks te zetten naar de beoordeelde versies. Kan later veel tijd besparen. RToV 12 okt 2007 17:13 (CEST)Reageren

Kijk eens op gebruiker:Josq/Onderzoek kwaliteitsgroei/RToV...
Het wordt alleen wat lastig om dit 'automatisch' in de voorbeeldtabel te zetten, maar als jij een maniertje weet, ga je gang! Josq 12 okt 2007 17:15 (CEST)Reageren
Kwam ik achter nadat ik dit had opgeslagen... Automatisch zit er helaas niet in, dus terug naar de kleuterschool: knippen en plakken. :-) RToV 12 okt 2007 17:36 (CEST)Reageren
Handig gedaan jongens :P Rubietje88 12 okt 2007 17:58 (CEST)Reageren

Erik Zachtes statistieken

bewerken
 

Door de bekerkte mogelijkheden voor handmatige analyse lijkt mij een geautomatiseerde statistiek meer voor de hand te liggen.

Met behulp van Erik Zachtes statistiken heb ik deze grafiek aangemaakt. Het toont het percentage artikelen ingedeeld naar grootte. Zie op commons voor soortgelijke verdelingen voor andere talen (klik hiervoor op de afbeelding).

Andere zeer basale kenmerken van kwaliteit die opgenomen zijn in Erik's statistieken zijn

  • aantal bytes per artikel
  • gemiddeld aantal woorden per artikel
  • gemiddeld aantal links per artikel

HenkvD 13 okt 2007 14:31 (CEST)Reageren

Grootte in bytes zegt niets over kwaliteitsgroei. Mooi plaatje, dat wel, maar ik zie niet wat daaruit valt af te leiden. RToV 13 okt 2007 18:48 (CEST)Reageren
Wanneer er botmatig beginnetjes (zoals Franse gemeenten) worden toegevoegd?? Rubietje88 1 nov 2007 17:59 (CET)Reageren

Duitstalige Wikipedia

bewerken

Ik vind het spijtig dat de vergelijking van de Duitstalige[1] Wikipedia met Brockhaus en de Duitstalige Encarta (meta:Wikipedia vs Brockhaus and Encarta) niet wordt vermeld. Dit lijkt me toch hét belangrijkste grootschallige kwaliteitsonderzoek van een Wikipedia tot nogtoe. Evil berry 15 okt 2007 23:13 (CEST)Reageren

Nooit van gehoord, goed dat je me er op wijst. Zal er naar kijken! Josq 15 okt 2007 23:20 (CEST)Reageren

  1. Vaak wordt dit weggelaten, maar ere wie ere toekomt.

voortgang....

bewerken

Om het project levend te houden, is het wellicht handig om iedere week / twee weken een soort van voortgangsrapportage te maken, bijv. het aantal actieve deelnemers, het aantal artikelen dat door de deelnemers is beoordeeld, plus een statistiekje over de gemiddelde kwaliteitsbeoordeling door de deelnemers. - Quistnix 1 nov 2007 16:34 (CET)Reageren

Wellicht ter aanvullig: misschien kunnen we per beoordeling ook een kwaliteits/kwantiteitsverhoudingsgetal aangeven: de totale beoordeling, gedeeld door de omvang van het artikel in bytes - Quistnix 1 nov 2007 16:37 (CET)Reageren

Goed idee. Ik wil vanavond of morgen degenen die zich wel hebben opgegeven maar nog niet (significant) hebben bijgedragen een herinnering sturen. En volgende week nog een extra oproep in de Kroeg. Als jij het leuk vind om zulke dingen te doen, ga je gang! Neemt mij weer wat werk uit handen ;)
Een tussentijds statistiekje is extra werk, maar wel heel leuk! Josq 1 nov 2007 16:59 (CET)Reageren
Misschien een pagina Gebruiker:Josq/Onderzoek kwaliteitsgroei/Voortgang of zoiets voor dit doel gebruiken? Het is jouw onderzoek en ik wil je daarin vrij laten, maar ik stel voor daar een aantal zaken in zetten, zoals: aantal aangemelde gebruikers, aantal voltooide beoordelingen van de verplicht te beoordelen artikelen, aantal beoordelingen van willekeurig aantal gekozen artikelen, en wellicht meer. Verder wil ik niet te veel sturen door iets op te leggen dat niet overenkomt met jouw visie op "kwaliteit", dus ik denk dat een eerste opzet van jouw hand moet zijn. Ik ben wel bereid om er actief aan mee te werken, echter zonder te veel een eigen invulling te geven aan het onderzoek. Over de belangrijkheid van verschillende aspecten wil ik wel graag in discussie gaan met jou en anderen hoe meer zielen, hoe meer vreugd 🙂 - Quistnix 1 nov 2007 18:49 (CET)Reageren
Zoals je allicht gezien hebt, ik heb wat gegevens (inclusief eerste resultaten) op de projectpagina gezet onder het kopje "voortgang". Josq 1 nov 2007 20:26 (CET)Reageren
Ik ben er nog en doe mee, heb alleen wat veel hooi op de vork. Btw, de verplichting om alle vier beoordelingen in enen in de tabel in te voegen geeft me wat probleempjes, wellicht kan ik beter de cijfers eerst op een kladje schrijven? - Art Unbound 9 nov 2007 00:13 (CET)Reageren
Zelf los ik het op door meerdere schermen te openen. Maar doe het zoals je het zelf het meest praktisch vindt. Josq 9 nov 2007 00:15 (CET)Reageren

Aantal artikelen

bewerken

Hoeveel artikelen mag ik nu maximaal doen? 10 inclusief de 3 gemeenschappelijke/verplichte of exclusief die drie? Rubietje88 1 nov 2007 19:48 (CET)Reageren

10 + 3 ;) Josq 1 nov 2007 20:01 (CET)Reageren
Terugkeren naar de gebruikerspagina van "Josq/Onderzoek kwaliteitsgroei".