Overleg Wikipedia:AutoWikiBrowser/Typos

Laatste reactie: 1 jaar geleden door Ennomien in het onderwerp kastlijntje

Issues bewerken

Help:Veelvoorkomende_spelfouten/machines bewerken

  • Hoe het tweede stukje gesynchroniseerd houden met Help:Veelvoorkomende_spelfouten/machines ?
  • Deze lijst kan efficiënter met reguliere expressies. Maar dan is synchronisatie moeilijker..
  • De lijst is nu case-sensitive ?

Rahier overleg 8 dec 2007 18:44 (CET)Reageren

AWB bewerken

  • Tot wanneer spreekt men van "typo's" en waar beginnen de taalverbeteringen ?

Rahier overleg 8 dec 2007 18:44 (CET)Reageren

Desiré bewerken

  • Ik wil eigenlijk wel af van de 'verbetering' [d/D]esire naar Desiré. Volgens mij wordt er hier op de Nederlandse Wikipedia meer gesproken over het Engelse desire dan over meisjes die Desiré heten. Wat jullie?   BlackCatoverleg 12 okt 2008 00:27 (CEST)Reageren
    • ok, ik haal het eraf. Zo zijn er immers nog een aantal namen, hoor.

Sanering van de lijst bewerken

Door het gebruik van de lijst binnen AWB heb ik gemerkt dat een aantal woorden tot vele valse positieven leidden. Redenen daartoe zijn de aanwezigheid van vreemde talen in Nederlandstalige lemma's (enerzijds als ingeburgerde termen, anderszijds in namen, titels, referenties, enzovoort) of van vroegere schrijfwijzen (in referenties, titels, enz.). Volgens mijn schatting zijn hierdoor meer dan 50% van de hits valse positieven, die het gebruik van de RegExTypoFix functie door AWB-gebruikers bemoeilijkt.
De geschrapte woorden zijn :

  • Terriër
  • Makò
  • café
  • René
  • artiest
  • invité
  • oriënt
  • réunion
  • israël
  • italië..
  • Santé
  • Californië
  • André
  • Montréal
  • Drente (van Drenthe)
  • Santé
  • cocaïne
  • heroïne
  • euro
  • comité (van committee)
  • historiën
  • Hué
  • aïs
  • Cédric
  • craquelé
  • Twente (van Twenthe)
  • Castilië en León
  • San José
  • François
  • Cédric
  • Valère
  • Georgië
  • Genève
  • peeën
  • Édouard
  • treeën
  • Béthune
  • Esmé
  • Visé
  • introïtus
  • Triëst
  • vacuüm
  • Marqué
  • Héron
  • Fréjus
  • linguïst
  • Servië (van serviezen)
  • Melodieën
  • Édouard
  • syntaxis (van syntax)
  • Béthune
  • zoölogisch

Volgende woorden zijn verwijderd omdat ze om niet correct toegepast werden :

  • middeleeuws (= Middeleeuws zonder hoofdletter)

En volgende woorden omdat ze blijkbaar ingaan tegen de gebruikelijke spelling op WP :

  • Fenicië (van Phoenicië)
  • preses (van praeses)
  • belang (van belangrijkheid)
  • rekest (van request)

Van de volgende woorden tenslotte werd de zoekstring aangepast :

  • decolleté
  • Leinì..
  • Indier..
  • ..actiën..
  • ..façade..
  • ..cariës
  • Kunów
  • habitué..
  • deïsme
  • Piastów..
  • Sicilië..
  • oliën..
  • ..omertà
  • Arriët..

Natuurlijk is dit een voorlopige lijst, en is alle commentaar/aanvulling welkom. Rahier overleg 8 apr 2011 00:21 (CEST)Reageren

ad-hocola bewerken

Goedemiddag,

Betreffende:

<Typo word="ad fundum" find="\bad-?fundum\b" replace="ad fundum" />
<Typo word="ad hoc" find="\bad-?hoc\b" replace="ad hoc" />
<Typo word="ad rem" find="\bad-?rem\b" replace="ad rem" />

Dit rijtje mag aangevuld worden met:

<Typo word="ad interim" />

Maar waar het me eigenlijk om ging, is dat deze woordgroepen in samenstellingen met een streepje geschreven dienen te worden: "ad-hocbeslissing" en "ad-interimaanstelling". Nou zijn deze samenstellingen –als ze zo gespeld zijn– niet het probleem, aangezien deze niet met bovenstaande regexen matchen, maar wél als er een tweede streepje voor de leesbaarheid is geplaatst: "ad-hoc-beslissing", "ad-interim-aanstelling" en vooral ad-hoc-hypothese" (zie dit advies van de Nederlandse Taalunie en deze van OnzeTaal). Dus bij deze een verzoekje de typos-lijst zo aan te passen dat in samenstellingen het streepje niet vervangen wordt door een spatie. Kan dat bijvoorbeeld door dit:

<Typo word="ad hoc" find="\bad[ ]?hoc([\w-])" replace="ad hoc$1" />

na bovenstaande regels toe te voegen? Of (ik neem aan dat AWB de wikicode bekijkt) om ook gewikilinkte gevallen te vinden (zoals [[ad hoc|ad-hoc]]beslissing):

<Typo word="ad hoc" find="\bad[ ]?hoc((?:\]\])[\]\w-])" replace="ad hoc$1" />

? Met vriendelijke groeten — Mar(c). [O] 17 mei 2012 14:54 (CEST)Reageren

  Opgelost Een geval van gebruikmaken van (?!...), zie en:Wikipedia:AutoWikiBrowser/Regular expression, mijn favoriet. Wikiwerner (overleg) 21 mei 2018 13:04 (CEST)Reageren

Hulp bij bewerken lijst bewerken

Ik denk dat ik enkele goede wijzigingen aan de lijst zou kunnen toevoegen, als iemand mij zou helpen met de computertaal.

Ik zet hier even neer wat ik er al van denk te begrijpen. bewerken

  • De algemene structuur is

<Typo word=" JUIST WOORD " find="\b REEKS MOGELIJKE FOUTE WOORDEN " replace=" REEKS MOGELIJKE VERVANGINGEN " />

  • Enkele argumenten zijn
    • (a|b|c|d) betekent a (en/?)of b (en/?)of c (en/?)of d (of niets?)
    • [abcd] betekent ook a (en/?)of b (en/?)of c (en/?)of d (of niets?)
    • (a)? betekent met of zonder a

Deze drie argumenten worden genummerd. Bv. als je er drie gebruikt, is het eerste invoegsel nr. 1, het tweede nr. 2, het derde nr. 3. In de reeks mogelijke vervangingen moet je zo gebruik maken van $1, $2, $3 om deze letters ook in de uitkomst te plaatsen.

Deze vragen heb ik nog bewerken

  • Is het juist wat ik hierboven geplaatst heb?
  • Is het de beste manier om nieuwe "typo's" toe te voegen, de pagina Wikipedia:AutoWikiBrowser/Typos handmatig te bewerken door de vaste formule te kopiëren en in te vullen?
  • Zijn er nog handige argumenten die ik zou kunnen gebruiken? Jokertekens, misschien?
  • Hoe zit het met de b's die soms opduiken in de formules, nu eens voor het foute woord, dan weer erna?

Bijvoorbeeld

<Typo word="-concurreer-" find="concur(er)?(eer|eren|ent)" replace="concurr$2" /> (hier zonder)

<Typo word="de facto" find="\bdé ?fakto\b" replace="de facto" /> (hier met, voor en achter)

  • En als laatste, hoe zit het met de hoofdlettergevoeligheid? Ik vermoed alvast dat het hele systeem strikt hoofdletter- en diakritischtekengevoelig is.

Bij voorbaat bedankt, ik hoop op een spoedig antwoord. Youbuntu (overleg) 28 mei 2012 13:18 (CEST)Reageren

Als je geen ervaring hebt met regex, dan raad ik het af om direct wijzigingen te maken in de lijst. Je kunt in AWB ook persoonlijke regex maken in je AWB als je persé wijzigingen wil maken voordat ze in de lijst staan. Foutieve wijzigingen zorgen voor de onmogelijkheid de lijst te laden of kunnen potentieel voor foutieve wijzigingen zorgen. Sum?urai8? 28 mei 2012 14:05 (CEST)Reageren
Probleem opgelost, ik heb regex geleerd en reeds enkele wijzigingen in de lijst van typo's aangebracht. (En ze werken!) Youbuntu (overleg) 28 mei 2012 18:41 (CEST)Reageren

Gotenburg bewerken

Ik zag dat in het artikel Monitor met deze wijziging AWB de naam van de Zweedse stad Gotenburg in Göteborg verandert. Is daar een goede reden voor, bijvoorbeeld aantoonbare consensus dat de naam Göteborg de voorkeur heeft? Anders vind ik het tijd en moeite die aan iets beters besteed had kunnen worden.

En ja, ik heb bij het schrijven van het artikel nagekeken of er een soort "officiële" voorkeur is, maar daar heb ik in ieder geval bij http://taaladvies.net niets over kunnen vinden.

In dit verband heeft de discussie over de naam van het artikel Gotenburg/Göteborg relevantie. Ik heb geen moeite met de naam van dat artikel, maar ik lees geen consensus in de discussie. Ik hoor wellicht tot de minderheid die de voorkeur aan Gotenburg geeft, maar het lijkt me dat dat geen kleine minderheid is. Gebruik van Gotenburg (met de goede wikilink) lijkt me correct in artikelen en dus BTNI.

groet,Magere Hein (overleg) 29 mei 2012 02:20 (CEST)Reageren

Ik behoor tot de kennelijke meerderheid die aan Göteborg de voorkeur geeft, maar ik ben het met je eens dat dit onder BTNI zou moeten vallen. - André Engels (overleg) Hulp gewenst? Neem een coach! 30 mei 2012 11:34 (CEST)Reageren
Dank voor deze reactie. Groet, Magere Hein (overleg) 30 mei 2012 15:20 (CEST)Reageren

Eieren bewerken

Er komen in de lijst nogal wat eieren voor, die foutief gespeld worden. Zo is het niet fazanteëi, maar fazantenei, niet ganzeëi, maar ganzenei, tot en met zwanenei. Daarnaast vraag ik me af of er inderdaad hanen zijn, die een hanenei (hier gespeld als haneëi) kunnen produceren. - Paul-MD (overleg) 6 jun 2012 14:46 (CEST)Reageren

Inderdaad, ik heb het aangepast.Youbuntu (overleg) 21 aug 2012 16:42 (CEST)Reageren

Over de productie van Haneneieren door hanen een melding van Ernst Brinck :Anno 1636 is het te Harderwijck gebeurt, dat .2. haenen op den straten met malcanderen vochtende, soo liet den eenen op straete een klein Eij neervallen, twelck ick dan oock beware tot een rarieteijt [Archief Stadsbestuur Harderwijk 1231-1813 (OAH) 2057_f 47] Contigis anno 1636 ultimo Aprilis Harderwicia dat .2. hanen op de straete met malkanderen vochten, ende een liet opte straete een klein eij vallen, per semo in mea pinacotheca. [OAH_2033_f 5]

Los of aaneen bewerken

Ik zou graag onder het kopje 1.2 Veelvoorkomende spelfouten (Help:Veelvoorkomende_spelfouten/machines) het kopje "Los of aaneen" toevoegen (als 1.2.1 dus), waarin alle typo's dan zouden worden geplaatst die te maken hebben met het al dan niet aan elkaar geschreven worden van woorden. Doen of laten? Youbuntu (overleg) 2 jul 2012 17:58 (CEST)Reageren

Doen, leek mij.Youbuntu (overleg) 21 aug 2012 16:32 (CEST)Reageren

WPCleaner bewerken

Hi,

If you're interested, WPCleaner can now be configured to use the same list as AWB to detect spelling and typography mistakes and provide suggestions. --NicoV (overleg) 23 sep 2012 11:42 (CEST)Reageren

Wat te doen als AWB een goed woord fout wil verbeteren bewerken

Ik kwam net bijvoorbeeld sectienummers tegen, dat door sectien naar sectiënummers werd gecorrigeerd, en zo kom ik er nog wel een aantal tegen. Wat kan ik hier best mee doen, gewoon zo laten, of ergens iets aanpassen (in een van de lijsten, uiteraard ga ik dit niet opslaan in AWB)? - Warddr (overleg) 21 mrt 2014 06:27 (CET)Reageren

  Opgelost Ik heb de code "(S|s)ecti[eë]+n" aangevuld tot "(S|s)ecti[eë]+n(\W|$)". Daardoor wordt het alleen nog veranderd als er na de n een regeleinde staat of iets anders dan een letter, cijfer of underscore. Wikiwerner (overleg) 29 mrt 2016 22:22 (CEST)Reageren
Het kan zelfs nog makkelijker: "(S|s)ecti[eë]+n\b", zoals al veel gebruikt wordt in deze lijst. Wikiwerner (overleg) 25 jul 2017 22:41 (CEST)Reageren

Draaïschijf bewerken

AWB wil af en toe 'draaischijf' veranderen in 'draaïschijf'. Volgens mij komt dit doordat de typolijst zoekt naar woorden zoals archaïsch en algebraïsch. Wie weet hoe dit aan te passen is? Wikiwerner (overleg) 21 mrt 2016 00:18 (CET)Reageren

  Opgelost Ik heb (a|o)isch vervangen door ([^ao])(a|o)isch, oftewel: er mag geen a of o voor de passage 'aisch' of 'oisch' staan. Met dank aan http://www.h2o-betterwin.nl/know-how/tutorials/vba-reguliere-expressies/#syntax en de probeertool voor reguliere expressies in AWB. Wikiwerner (overleg) 27 mrt 2016 22:40 (CEST)Reageren
Het liet je niet los he? Gefeliciteerd met het vinden van de oplossing! Richard 29 mrt 2016 17:45 (CEST)Reageren
Zou deze oplossing ook werken voor een soortgelijk probleem hierboven, twee jaar geleden aangekaart door Warddr? — bertux 29 mrt 2016 21:05 (CEST)Reageren
Nee, maar na nog wat verder proberen heb ik het nu opgelost. Wikiwerner (overleg) 29 mrt 2016 22:22 (CEST)Reageren

Guinese bewerken

Hallo. Ik zie in de AWB-lijst staan dat Guinese "gecorrigeerd" wordt in Guineese. Dit klopt echter niet in alle gevallen en al helemaal niet in het geval van Equatoriaal-Guinese en Nieuw-Guinese. Guineese, dus met twee e's, is alleen correct als het betekent van Guinee. Guinese, met één e, daarentegen betekent van Guinea.[1] Aangezien Equatoriaal- of Nieuw-Guinese betekent van Equatoriaal- / Nieuw-Guinea is de schrijfwijze met twee e's dus incorrect. Mvg, Caudex Rax ツ (overleg) 28 apr 2016 23:46 (CEST)Reageren

  Opgelost Goed opgemerkt, ik heb het gefixt: Guine(e)se weg, want het kan allebei bedoeld worden, en Equatoriaal- en Nieuw-Guinese gecorrigeerd. Wikiwerner (overleg) 29 apr 2016 19:57 (CEST)Reageren
Bedankt, Wikiwerner. Mvg, Caudex Rax ツ (overleg) 30 apr 2016 10:09 (CEST)Reageren

Automatisch bewerken

Weet iemand of deze lijst ook automatisch kan draaien op AWB? Dus zonder zelf iedere keer op "save" te drukken? BakkertjeWouter 16 nov 2017 11:23 (CET)Reageren

Dat is uitdrukkelijk niet de bedoeling. Als je AWB opstart en deze lijst geïmporteerd wordt, dan verschijnt de melding: "Check each edit before you make it. Although this has been built to be very accurate there will be errors." Er zijn namelijk ook gevallen wanneer een vervanging ongewenst is: pagina's die gaan over de betreffende spelfout, bestandsnamen, url's, citaten en titels. Wikiwerner (overleg) 16 nov 2017 18:36 (CET)Reageren

kastlijntje bewerken

Zou het mogelijk zijn om de AWB zo in te stellen dat een tekst zoals (Amsterdam, 25 april 1921 - Zürich, 3 mei 2006) wordt vervangen door (Amsterdam, 25 april 1921 – Zürich, 3 mei 2006), waarbij – het halve kastlijntje is, iets langer dan de divisie -. Er zijn verschillende mensen, waaronder Gebruiker:StuivertjeWisselen en ikzelf die hier voorstander van zijn, omdat o.a. de Taalunie dit adviseert. Omdat het botmatig vervangen op bezwaren stuit, is het misschien een idee dit in de runs van AWB mee te nemen?

Kan wellicht gerealiseerd worden door elke tekst "jaartal -" te wijzigen in "jaartal –". Dat zijn dus (vanaf het jaar nul tot nu) 2021 records. Maar misschien zijn er andere ideeën? Elly (overleg) 27 aug 2021 13:32 (CEST)Reageren

Op zich een goed voorstel, ik denk niet dat het heel erg veel beter kan. Tja, de maand ervoor zou nog kunnen. Wil je dit nog steeds, @Elly? Ennomien (overleg) 27 feb 2023 10:30 (CET)Reageren
Ja, ik heb mij destijds laten overtuigen door iemand op WP die daar veel op let met typografische kennis. Die verbeterde dat met als gevolg BWO's en beroep op BTNI. Je kent dat wel. Ik weet niet meer wie dat was. Dus leek automatisch wijzigen tegelijk met andere verbeteringen mij een goed idee. Maar niet alle streepjes in een tekst moeten kastlijntjes worden. Zie het artikel. Groet, Elly (overleg) 27 feb 2023 12:16 (CET)Reageren
Ik ga eens kijken of ik daar iets mee kan, vanavond. Met vriendelijke groet, Ennomien (overleg) 27 feb 2023 14:51 (CET)Reageren
Mooi, Ennomien , het was trouwens Gebruiker:Maiella, lijkt helaas vertrokken. Op haar (?) OP zie je het geruzie, o.a. met een inmiddels geblokkeerde gebruiker. Moet worden "Half kastlijntje" uiteraard. Met vriendelijke groet, Elly (overleg) 27 feb 2023 20:24 (CET)Reageren
Hmm @Ellywa, ik stond op het punt dit uit te voeren, maar dat lijkt me dan een vreemde eend tussen alle andere veranderingen. Is het een idee dit even kort te peilen? Ennomien (overleg) 28 feb 2023 22:17 (CET)Reageren
dat kan geen kwaad. Elly (overleg) 1 mrt 2023 06:18 (CET)Reageren
Als we toch bezig zijn: moeten er wel of niet spaties rond zo'n streepje? ErikvanB heb ik wel eens spaties zien verwijderen en het kastlijntje zien vervangen door een verbindingsstreepje, maar dat laatste was misschien onopzettelijk. Ikzelf zie het verschil onmiddellijk, maar dat blijkt niet voor iedereen te gelden. Ben in elk geval benieuwd naar de reden. Voor voorleessoftware schijnt het halve kastlijntje duidelijker te zijn dan het verbindingsstreepje.
Vormen als 0000-0000 in de eerste zin kunnen sowieso vervangen worden en ook ‍ (0000-000) (haakjes+voorloopspatie) in het hele artikel. Voorkomens zonder haakjes vragen meer aandacht  →bertux 2 mrt 2023 11:17 (CET)Reageren
Zie Is er verschil tussen een kort en een lang (liggend) streepje? Ik vervang "1–2" (=1 à 2) inderdaad door "1-2", ook al is het voordeel van het halve kastelijntje (–), geloof ik, dat het niet kan afbreken, dit in tegenstelling tot de divisie (-), die ertoe kan leiden dat er aan het eind van een regel "1-" komt te staan. Maar dat moeten we dan maar voor lief nemen (of je gebruikt {{nowrap}} in gevallen waar afbreken echt onwenselijk is).
Wat betreft intro's, als alleen geboorte- en overlijdensjaar bekend zijn, schrijf ik 0000 – 0000, maar in de verdere lopende tekst schrijf ik bijvoorbeeld "Het apparaat is uitgevonden door Jan de Jong (0000-0000)". ErikvanB (overleg) 2 mrt 2023 11:55 (CET)Reageren
Er zijn ook {{nowrap}} en het niet-afbrekende koppelteken (U+2010). –bdijkstra (overleg) 2 mrt 2023 12:21 (CET)Reageren
Uitgaande van deze bewerking van Maiella, horen er wel spaties aan weerszijden van het halve kastlijntje. Elly (overleg) 2 mrt 2023 22:30 (CET)Reageren
Volgens mij geldt dat alleen als je aan een of beide kanten een uitdrukking met spaties hebt staan. –bdijkstra (overleg) 2 mrt 2023 22:44 (CET)Reageren
Hmm, maar @Ellywa, onzetaal.nl zegt dat we een kort streepje moeten gebruiken "in de betekenis ‘tot en met’ (tussen twee getallen): 1940-1945". Hoe zit dat dan? Ennomien (overleg) 3 mrt 2023 02:06 (CET)Reageren

Welke lijst doet ertoe? bewerken

Naast deze lijst is er ook Help:Veelvoorkomende spelfouten en Help:Veelvoorkomende spelfouten/machines. Wordt elke lijst gebruikt, en zo ja, door wie? Deze door AWB, de tweede door mensen en de derde door bots? Dan wil ik dat wel duidelijker maken, al vind ik het wel onhandig om spelfouten op drie plekken neer te zetten. Ik had het er met bdijkstra al kort over op mijn overlegpagina, zie hier, maar alsnog hebben we de verbetering toen op twee plekken (op Help:Veelvoorkomende spelfouten stond het niet) weggehaald. Mvg, Ennomien (overleg) 27 feb 2023 10:30 (CET)Reageren

Voor AWB telt alleen deze lijst. Geen idee welke mensen gebruiken en bots is afhankelijk van wat de boteigenaar instelt. Als de bot via AWB loopt, dan gebruikt die ook deze lijst. Mbch331 (overleg) 27 feb 2023 10:35 (CET)Reageren
Wie wat gebruikt kun jij natuurlijk lastig weten, maar in principe worden alle drie de lijsten wel gewoon gebruikt? Zo ja, zou het natuurlijk wenselijk zijn als er maar één lijst bewerkt hoeft te worden, maar dat is nog niet zo eenvoudig. Dat zou dan met een bot moeten die eens in de zoveel tijd alles synchroniseert. Mijn vraag was vooral om duidelijkheid te krijgen in welke lijsten er zijn en waarvoor ze er zijn, ik zou ze bijv. met {{Zie ook}} kunnen "verbinden" aan elkaar. Ennomien (overleg) 27 feb 2023 10:56 (CET)Reageren
Een bot die de lijsten synchroon houdt zou mooi zijn. En die {{Zie ook}} zou een goed begin zijn. Mbch331 (overleg) 27 feb 2023 11:09 (CET)Reageren
Oké top. Wat ik (hopelijk) vanavond ga doen is de Zie-ooks plaatsen en op WP:VVB vragen of er iemand is die dat wil doen. Dat zou een leuk extraatje zijn. Handigst zou dan zijn om slechts op één versie nieuwe wijzigingen aan te brengen en de andere twee enkel door de bot te bewerken. Ennomien (overleg) 27 feb 2023 11:21 (CET)Reageren
  Uitgevoerd Ennomien (overleg) 28 feb 2023 22:05 (CET)Reageren
Terugkeren naar de projectpagina "AutoWikiBrowser/Typos".