Wikipedia:De kroeg/Archief 20080707

450.000 bewerken

Toch leuk, zo'n getal. We hebben weer een mijlpaaltje bereikt. Op naar de 500.000 (en blijven waken voor kwaliteit).Tjako   (overleg) 29 jun 2008 14:22 (CEST)[reageren]

ter informatie: er loopt nu een discussie over op foundation-l Tragical dynamics: that run for the number of articles (klik voor het volgen ervan op next message onderaan, of subscribe). de nederlandstalige wikipedia lijkt maar 68% "echte artikelen" te hebben. oscar ° overleg 29 jun 2008 14:32 (CEST)[reageren]
Ter aanvulling op oscar´s link max 29 jun 2008 14:50 (CEST)[reageren]
Misschien een mooi moment om verdere aanmaak van bot-artikelen (tijdelijk?) te stoppen en ons meer op kwaliteit dan kwantiteit te richten. Wanneer ik tien maal achter elkaar op "willekeurige pagina" klik, krijg ik gegarandeerd minimaal drie artikelen waarvan de inhoud in 1 zin is samen te vatten, zonder enig verlies aan informatie - Quistnix 29 jun 2008 14:40 (CEST)[reageren]
En wat bereiken we daar dan mee? Daar worden de overige artikelen niet beter van, en krijgen we dus ook niet meer informatie in wikipedia. Ik heb liever een bot die gecontroleerd juiste info in wikipedia pompt, dan een anoniem die top40-data zit te wijzigen of doelpunten uit de poolse wazniaki-liga. Nog liever heb ik ze allebij, met de hoop dat die anoniem een goede bron gebruikt. De boel op slot gooien maakt wikipedia niet beter, niet toevoegen is geen optie, en pas volgend jaar toevoegen is uitstel en dus ook geen juiste optie. EdoOverleg 30 jun 2008 14:51 (CEST)[reageren]
Grappig: mijn ervaring komt overeen met de 68% die Oscar noemt - Quistnix 29 jun 2008 14:41 (CEST)[reageren]
ter aanvulling op quistnix' opmerking 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. oscar ° overleg 29 jun 2008 15:15 (CEST)[reageren]
Ik kom op 3 echte artikelen van die 10 willekeurigen. Slik!!! max 29 jun 2008 15:17 (CEST)[reageren]
Ik op 6 van de 10. Alhoewel ik niet de mening deel dat een botartikel per definitie geen "echt" artikel is. Als een artikel in goede Nederlandse zinnen de demografische gegevens van een plaats ergens op de wereld weergeeft, is een belangrijk deel van die plaats reeds beschreven. Tubantia disputatum meum 29 jun 2008 15:58 (CEST)[reageren]
Gelijk nog maar 90x doorgeklikt. 72 van de 100 handmatig gemaakte artikelen. Maarja, soms zijn er ook gebruikers die artikelen maken die líjken op botartikelen; ik vraag me af in hoeverre die in de schatting zijn meegenomen. Hetzelfde geldt voor doorverwijspagina's; die heb ik nu overgeslagen. Overigens waren van de 28 botartikelen er minimaal twaalf over Franse gemeenten. Tubantia disputatum meum 29 jun 2008 16:25 (CEST)[reageren]
Misschien moet op de hoofdpagina dan vermeld worden: 450.000 lemmatitels (hetgeen objectiever is, en dan niet gelijk claimt dat achter zo'n titel een degelijk lemma zit)? (Overigens was ik me er bij die 450.000 (gewoon een leuk getal) wel van bewust dat veel lemma's kwalitatief nog niet zo goed zijn, of slechtsbeginnetjes bevatten, of zelfs slecht vertaalde botzaakjes, of alleen plaatsje x ligt in landje y.) Tjako   (overleg) 29 jun 2008 15:08 (CEST)[reageren]
Het lijkt mij handig om je sowieso niets van die cijfers aan te trekken. Wedstrijdjes om het grootste aantal artikelen zijn krom (me dunkt dat we meer artikelen maken dan een taalgebied van 3 miljoen sprekers en minder dan één met 1 miljard sprekers), leidt bijna gegarandeerd tot slechte kwaliteit en ten derde: waar zou het goed voor zijn in een project als dit? Bovendien kan onnodige tekst verwijderen ten bate van de leesbaarheid en kwaliteit een zowat even nuttige bezigheid zijn als tekst maken, waar dergelijke cijfers volstrekt aan voorbijgaan. Gewoon lekker doorsleutelen en die cijfers voor kennisgeving aannemen, zeg ik. Toth 29 jun 2008 15:28 (CEST)[reageren]
Als je dat vindt is dus de vermelding van het aantal lemma's onnodig op de hoofdpagina? Tjako   (overleg) 29 jun 2008 15:44 (CEST)[reageren]
Neuh, ter overzicht is de vermelding wel leuk. Ik ken er verder alleen totaal geen waarde aan toe. Toth 29 jun 2008 19:13 (CEST)[reageren]
Ik kan me nog herinneren dat bij de 300,000 artikelen-mijlpaal er aandacht vanuit de media (radio 1 etc.) was - Zou beetje lullig zijn als deze mijlpaal over een paar maanden weer wordt bereikt, liever de half miljoen... - LolSimon -?- 29 jun 2008 20:54 (CEST)[reageren]
Waarom niet eerst de 456.789 ? - Quistnix 30 jun 2008 16:40 (CEST)[reageren]

Betrouwbaarheid cijfers bewerken

De cijfers die overigens genoemd worden in de door oscar toegevoegde links zijn het resultaat van het willekeurig bekijken van slechts 50 artikelen en dan op grond van uiterlijk en tekst van het artikel inschatten of het een bot-artikel is en of het meer dan slechts een paar regels bevat. Om dit in de vele voor hem onbekende talen te kunnen doen gebruikte hij de google machinevertaling. We kunnen die getallen wel met een korreltje zout nemen. Want:

  1. samplesize van 50 is klein
  2. kwalitatieve en subjectieve inschatting van de willekeurig opgevraagde artikelen
  3. score door slechts 1 persoon in talen die hem grotendeels volkomen vreemd zijn.


Doorlopen mensen, niets aan de hand. max 29 jun 2008 18:40 (CEST)[reageren]

Wat tegen je argumentatie pleit: 1) bij herhaling, 100x willekeurige pagina, krijg ik inderdaad 72 handmatig aangemaakte en 28 botartikelen. 2) de bewuste auteur lijkt afkomstig uit Silvolde, dus het is zeker voor de Nederlandstalige Wikipedia niet te rooskleurig weergegeven. Tubantia disputatum meum 29 jun 2008 18:51 (CEST)[reageren]
Mooi werk. Overigens, hoe beoordeel je dat iets een botartikel is? max 29 jun 2008 18:54 (CEST)[reageren]
Geschiedenis openen en kijken wie de eerste bewerker is. Desalniettemin zit je dan soms met artikelen, aangemaakt door gebruikers, die een "bottig" uiterlijk hebben. En tjah, dan moet je een keuze maken; ik kies dan voor handmatig aangemaakt. Situatie deed zich een keer of twee op de honderd voor. Tubantia disputatum meum 29 jun 2008 19:35 (CEST)[reageren]
Ook een testje gedaan (137 keer): 78 artikelen > beg; 10 beginnetjes; 30 botartikelen; 4 botartikelen die later zijn uitgebreid (maar nog erg karig zijn); 15 doorverwijspagina's. Oftwel 78 handgemaakte artikelen (56%) die het beginnetjesniveau (soms net) ontstijgen (67% met dp's) en een verhouding van 75%-25% handgemaakt/botgemaakt. Nog niet echt iets om over naar huis te schrijven, maar de verhouding wordt wel beter. Nog niet zo lang geleden kon het voorkomen dat 7 van de 10 een botartikel over een Franse gemeente was. Wat wel opvalt is het kleine aantal botartikelen dat nadien is uitgebreid. Maar goed een rode link (en niet een groene ;) ) werkt volgens mij nog altijd beter als je een artikel ipv een lijst met statistische gegevens in tabel- en tekstvorm wilt hebben. --hardscarf 29 jun 2008 22:42 (CEST)[reageren]
Als iedereen nou iets toevoegt aan de dorpjes waar deze of gene van de zomer de vakantie doorbrengt in Frankrijk helpt dat al een stuk. In elk geval hoef je niet eigenhandig op zoek naar betrouwbare demografische gegevens en locatie en dergelijken. Daar mogen we ons voor in de handjes knijpen. Mig de Jong 30 jun 2008 11:49 (CEST)[reageren]
Ik heb de steekproef eens nauwkeuriger onder de loep genomen. Het was even wat rekenwerk, maar stél dat de werkelijke hoeveelheid echte artikelen op onze wikipedia 74% is (zoals het lijkt bij de Italianen) - dan is er een kans van 21% dat er uit de steekproef een resultaat komt van 68% of lager. Wel kan er op basis van de steekproef met 90% zekerheid geconstateerd worden dat de echte artikelen tussen de 58% en 78% van de encyclopedie vormen. Jacob overleg 30 jun 2008 12:49 (CEST)[reageren]

Betere statistiek bewerken

Mbv de statistieken van Erik Zachte:

Stand per ultimo feb 2008
Taal Aantal artikelen
x 1000
DB omvang
in MB
kB/artikel
de 726 2800 3,86
ja 475 2100 4,421)
fr 626 2100 3,35
it 422 1300 3,08
pl 477 1100 2,31
es 336 1300 3,87
nl 413 1000 2,42
pt 362 857 2,37
ru 241 1200 4,982)
zh 167 533 3,191)
Noten
1) Vergelijking met westerse talen gaat mank, enerzijds doordat opslag per karakter meer dan 1 byte vraagt, anderzijds omdat een karakter meer informatie kan bevatten dan een letter in westers schrift
2) Deze ratio zou ongeveer een factor 2 lager zijn als men deze corrigeert voor de 2 bytes die de opslag van een Cyrillisch karakter vraagt.


Daar valt dus voor nl: wel wat te verbeteren met ja: en ru: als lichtend voorbeeld.
N.B. Van en: zijn al enige tijd geen statistieken beschikbaar als gevolg van problemen met de DB-dump - mvg RonaldB 30 jun 2008 01:04 (CEST)[reageren]

Dit zegt ook niet alles. Duits is veel bloemrijker qua proza en kent vaak langere woorden en zinsconstructies dan bijvoorbeeld nl. Tjako   (overleg) 30 jun 2008 01:07 (CEST)[reageren]
Ik wil best wel een bot loslaten die het Latijnse alfabet vervangt door Cyrillisch of katakana (en dat verdubbelt zo ongeveer de gemiddelde grootte van een lemma), maar ik betwijfel ten zeerste of de lemmata daar beter van worden. Erik Warmelink 30 jun 2008 01:50 (CEST)[reageren]
Юникод (als voorbeeld) - unicode toch? - RonaldB 30 jun 2008 02:20 (CEST)[reageren]
Ik heb een grijsbruin vermoeden dat ook een beetje meespeelt dat de Duitse wikipedia een PD-versie van de Brockhaus ter beschikking heeft en de Russische een PD-versie van de Efron/Brockgaus (en tot de discussie over PD-1973=>PD-1937 ook over de Grote Sovjetencyclopedie waarvan ook nu nog veel content wordt gebruikt), wat naast kwantiteit ook het kwalitatieve voordeel heeft dat je niet elke zin meer zelf hoeft te bedenken en je een mooi voorbeeld hebt van; "zo zouden meer artikelen moeten worden geschreven". Als wij nu nog eens de beschikking konden krijgen over een 3e editie Winkler Prins (1905-1912)... ;) Een klein nadeel is natuurlijk wel dat het Duits en Russisch relatief gezien slechts weinig met taalveranderingen te maken hebben en het Nederlands als kleine taal relatief snel verandert. --hardscarf 30 jun 2008 11:00 (CEST)[reageren]
Veel botartikelen nemen veel kb in beslag. Denk hierbij aan de artikelen over gemeentes met een fraaie infobox, plaatje, inleiding en wat cijfertjes. De interessante statistieken van Erik Zachte zeggen hier dus weinig over het aantal botartikelen. Misschien heeft het te maken met de dp-pagina's of het fenomeen dat de Nederlandse wikipedia vrij weinig écht lange artikelen kent. Jacob overleg 30 jun 2008 11:39 (CEST)[reageren]
Vergeet ook de voetbalartikelen niet. Veel profvoetbalclubs hebben een kort verhaaltje (=tekst) gevolgd door een tabel van een aantal pagina's en nog wat lijstjes (=toegevoegde waarde), zoals bijvoorbeeld goed te zien bij Celtic FC. Ook zijn vlaggetjes en links belangrijk. Hoe meer links hoe beter. Vijf tot tien keer dezelfde link is daarbij alleen maar handig, zoals hier, want al die zwarte tekst is natuurlijk alleen maar saai ;). --hardscarf 30 jun 2008 12:33 (CEST)[reageren]
@RonaldB: Ja, maar wel door UTF-8 gecodeerd ("Omdat veel westerse letters slechts 1 byte in beslag nemen, is UTF-8 voor westerse talen compacter dan het eenvoudigere UTF-16"), als ik me de wijziging in grootte na spellingsverbeterigen goed herinner. Erik Warmelink 30 jun 2008 12:07 (CEST)[reageren]
Je hebt gelijk (heb me iets verder verdiept in UTF-8). Heb het tabelletje van noten voorzien. Blijft volgens mij toch de conclusie gerechtvaardigd dat we als nl: niet al te best scoren, alle opmerkingen hierboven ten spijt. Alle verklaringen/uitzonderingen zoals genoemd verzuipen in de grote aantallen (artikelen, botartikelen, etc.) waar hier sprake van is. - RonaldB 1 jul 2008 00:59 (CEST)[reageren]
Ook de categorieen nemen op andere wiki's vaak meer plaats in in lemma's (categorie:m/v, geb jaar, etc)Tjako   (overleg) 30 jun 2008 12:08 (CEST)[reageren]

Tips bewerken

  • Schrijf in plaats van een Kroegbericht een artikel.
  • Richt je op de inhoud van een artikel in plaats van het vele overleg.

Slechts twee suggesties Romaine (overleg) 30 jun 2008 01:12 (CEST)[reageren]

  • Tip 3: reageer hier niet op :p ...
  • Tip4: Lees en blader eens door een papieren versie van een encyclopedie (en dan kom je er misschien achter dat er in een papieren encyclopedie niet eens zoveel staat en soms wel heel erg kort kan zijn, wat hier 'woordenboek' genoemd wordt zelfs...) Dolfy 1 jul 2008 22:36 (CEST)[reageren]

Vakantiesouvenir voor Wikipedia bewerken

Ga je op vakantie? Neem eens wat souvenirs mee voor Wikipedia! Maak foto's van natuur en cultuur, schrijf artikeltjes over de landstreken en plaatsen waar je bent geweest, etc. Misschien kunnen we er wel een soort schrijfwedstrijd van maken. Of we pakken het aan zoals bij Wikiportret... Wie heeft er nog meer ideeën? Josq 30 jun 2008 16:06 (CEST)[reageren]

ja lekker, eigen onderzoek naar de bierkwaliteit in Duitsland zo vlak na het verloren EK, of exotischer: naar de Maldiven, al die 3 m2 atollen eens op de (eigen onderzoek) kiek zetten terwijl je benen door de haaien of koraalriffen worden afgereten tot op de 'bot', of bij een moderator voor het raam gaan staan om die foto te schieten voor op zijn o.p. waarop dan te zien is hoe rood-ie aanloopt bij de PA die je 3 minuten eerder via je laptop lanceerde vanuit je auto met verduisterd glas. (Of nee, dat laatste toch maar niet, wordt vast gewist...) , ... Tjako   (overleg) 30 jun 2008 23:39 (CEST)[reageren]
Hilarisch.
+1 Tjako. Kan ik iemand nog verblijden met een foto van een stijger voor schilderswerkzaamheden aan het huis? Of een foto van een fiks verbrande nek van het schilderen van 30 kozijntjes op het dakterras onder Kalaharische toestanden? Celloman 1 jul 2008 15:22 (CEST)[reageren]
Is zeker welkom! Schilder heeft nu 1 plaatje, meer hebben ze blijkbaar niet op Commons. En dat is een professional, terwijl ik het idee heb dat een groot deel van het schilderwerk aan Nederlandse huizen in eigen beheer wordt uitgevoerd. De oproep om de camera mee te nemen op vakantie ondersteun ik uiteraard ook. MartinD 2 jul 2008 12:00 (CEST)[reageren]

tool gezocht bewerken

Weet iemand of er een tool is die een lijst van artikelen kan geven die nog ontbreken op nl.wikipedia gesorteerd op aantal interwikilinks, maar dan wel binnen een bepaalde categorie. In mijn geval zou ik bijvoorbeeld in de Engelstalige categorie Philippines willen zoeken naar artikelen met veel interwikilinks maar zonder link naar nl.wikipedia. Magalhães 1 jul 2008 10:01 (CEST)[reageren]

En voila: na het zoeken in de index van tooltjes blijkt er inderdaad zoiets te bestaan: ca:Usuari:Joanjoc heeft die tool staan op de toolserver: zie http://toolserver.org/~joanjoc/index.php. --Tuvic 1 jul 2008 15:28 (CEST)[reageren]
Dus.. we kunnen nu ook een overzicht maken van artikelen die de meeste wikipedia's wél hebben en onze wikipedia niet? Jacob overleg 1 jul 2008 17:06 (CEST)[reageren]
Mogelijk wel, maar dan moet je alle categoriën doorspitten vanaf de top. Lijkt me ietwat lastig. Ik meen echter dat er ergens door een bot eens zo'n lijst voor deze Wikipedia is gemaakt, met ontbrekende artikels, op basis van interwiki's. Ik zou alleen niet meer echt weten waar te zoeken. --Tuvic 1 jul 2008 23:22 (CEST)[reageren]
Geweldig. Heel erg bedankt! Dit tooltje geeft enige indicatie mbt de belangrijkheid van een artikel dat nog ontbreekt. Magalhães
Ik denk dat je deze bedoelt: Wikipedia:Ontbrekende Interwiki in en: - Larzzz 2 jul 2008 00:42 (CEST)[reageren]
Inderdaad, ja. --Tuvic 2 jul 2008 08:59 (CEST)[reageren]