Hoi Bart,
Bedankt voor de verwijzing naar dit artikel. Zeker een goede
samenvatting, en sluit aan bij mijn onderzoekje.
Ik heb ook zijn proefschrift bekeken, die uitgebreider ingaat op de details.
http://ilk.uvt.nl/~mre/En vergelijkbaar artikel voor het Engels is hier.
http://citeseer.ist.psu.edu/golding96applying.htmlMijn eigen tooltje doet het volgende
1. Context (woorden die binnen 10 woorden vaker voorkomen als je een
zeker woord
gezien hebt.)
- Dit kan goed gebruikt worden om verwisselingen zoals weide / wijdde
/ wijde te vinden. (De koe in de weide / De priester wijdde / De
wijde straat)
2. Grammatica patroon. (Woorden die vaak gepaard gaan met een zeker
patroon in de grammatica (1 of 2 woorden ervoor of erna.) Goed voor
verwisselingen zoals hij/bij of nog/noch.
Ik ben nu nog met de laatste groep aan het stoeien. Om de
verzamelingen n-grammen binnen de perken te houden wil ik de
statistieken verzamelen voor woordsoorten/woordvormen ipv. specifieke
woorden. In ieder geval waar het woorden uit het lexicon betreft (dat
is met name de hoofdgroepen znw, bnw, ww, en bijw.)
Hij gebruikt levensthein afstanden om potentiele misspellingen te
vinden, en dan via context ze aan elkaar te koppelen. Iets dat volgens
mij dit IBM tooltje ook doet:
http://www.alphaworks.ibm.com/tech/csspellIk ga uit van vooraf vastgestelde "confusion sets"
(verwarringsverzamelingen) die met name zijn gebaseerd op sterk op
elkaar lijkende letters, zoals de h en de b (hij/bij), f en t
(hef/het), ni en m (niet, met), n en u (zou, zon).
Ik probeerde de codes uit jullie database te gebruiken, maar heb
daarvan alleen een beperkt overzicht gevonden, waar voor mijn gevoel
nog een aantal lacunes zitten. (Gebaseerd op de op het Engels
toegespitste BNC codes?)
http://www.natcorp.ox.ac.uk/http://www.kilgarriff.co.uk/BNC_lists/poscodes.htmlMet name het voornaamwoord in al zijn varianten lijkt te ontbreken in
de lijst die ik vond. (via:
http://lists.uitwisselplatform.nl/pipermail/opentaal-discussie/2007-November/001728.html)
Heb je hiervan een uptodate uitdraaitje?
Ik probeer er een wat systematischer lijstje van te maken.
Mijn vorderingen documenteer ik op:
http://www.pgdp.net/wiki/User:Jhellingman/Tools/ScannoHeatMapJeroen.
Quoting Bart Knubben <
bart@...>:
_______________________________________________
Over de OpenTaal-mailinglist:
http://opentaal.org/mailinglist.phpZoeken in het mailinglistarchief:
http://opentaal.org/zoeken.phpJuridische voorwaarden:
http://opentaal.org/licentie.php