Wikipedia:Botcafé/Archief/2019-07

Copyvio user bot? bewerken

N.a.v. deze zaak vraag ik me af of het mogelijk is om een bot in het leven te roepen die steekproefsgewijs gebruikersbijdragen test op copyvio. Een bot die bijvoorbeeld systematisch tien grotere (1kb+) toevoegingen aan de hoofdnaamruimte per gebruiker uit een bepaalde periode tegen het licht houdt en dan een rapportje produceert waarin de kans op copyvio wordt gegeven. Ik kan niet inschatten of het de moeite waard is, maar misschien kan het voorkomen dat iemand jarenlang over de schreef gaat, zoals in het genoemde geval. Jürgen Eissink (overleg) 27 jul 2019 09:52 (CEST).[reageer]

Als je het met de hand niet kan, kan een bot het ook niet. Edoderoo (overleg) 27 jul 2019 11:06 (CEST)[reageer]
Maar bijvoorbeeld Earwig's Copyvio Detector maakt toch inschattingen van copyvio? Alleen is dat per artikel, niet per gebruiker. Ik begrijp ook niet helemaal wat je bedoelt, want met de hand (en het oog natuurlijk) kon ik in het genoemde geval al vrij snel zien dat teksten een-op-een waren overgenomen. Jürgen Eissink (overleg) 27 jul 2019 11:11 (CEST).[reageer]
Die Earwig vergelijkt een wikipedia-artikel met een (lees: 1) vooraf geselecteerde website. Dat is wat anders dan alle user-edits vergelijken met alle websites in de wereld. Het rapportje dat je hierboven suggereert, zou links naar die Earwig kunnen produceren. Maar Earwig gaat dat rapportje niet maken. Dan zou je elke user-edit tegen Google moeten houden, de resultaten moeten gaan interpreteren, en als dat er uitziet als mogelijke copyvio ... in een tabel moeten zetten. Edoderoo (overleg) 27 jul 2019 11:19 (CEST)[reageer]
Dat laatste is inderdaad wat ik voor ogen had, maar dan niet voor elke user-edit, maar voor een selectie. Jürgen Eissink (overleg) 27 jul 2019 11:30 (CEST).[reageer]
Ik heb twee jaar terug alle knooppunten (uit de categorie) met Excel in een tabel gezet, met links naar Earwig. Daarmee konden we wel achterhalen welke knooppunten van WegenWiki waren overgenomen, en hoeveel/welke stukken. De artikelen die FotoDutch heeft aangepakt zou ik trouwens gewoon handmatig langs Earwig halen, ware het niet dat we niet weten waar hij vandaan heeft gekopieerd. Ik geloof dat hij er ook nog steeds geen probleem in ziet, en dat hij denkt dat Trouw staat te juichen als wij de hele krant integraal overnemen. Maar daar gaat geen bot ons mee helpen, vrees ik. Edoderoo (overleg) 27 jul 2019 11:38 (CEST)[reageer]
Ik denk dat FotoDutch het probleem inmiddels wel inziet, maar ik betwijfel of hij gaat helpen met oplossen. Maar in plaats van user-edits checken, zou een bot misschien artikelen door Google kunnen halen en vervolgens de eerste drie niet-Wikipedia treffers door Earwig kunnen halen, bijvoorbeeld, en dan de copyvio-waarschijnlijkheid kunnen rapporteren. Maar misschien is dat te willekeurig en omslachtig. Ergens moet zoiets toch mogelijk zijn, denk ik. Jürgen Eissink (overleg) 27 jul 2019 11:46 (CEST).[reageer]