« Return to Thread: Nieuw oogstprogramma

Re: Woordsoorten database

by jeroen-20 :: Rate this Message:

Reply to Author | View in Thread


Hoi Bart,

Bedankt voor de verwijzing naar dit artikel. Zeker een goede  
samenvatting, en sluit aan bij mijn onderzoekje.

Ik heb ook zijn proefschrift bekeken, die uitgebreider ingaat op de details.

http://ilk.uvt.nl/~mre/

En vergelijkbaar artikel voor het Engels is hier.

http://citeseer.ist.psu.edu/golding96applying.html

Mijn eigen tooltje doet het volgende

1. Context (woorden die binnen 10 woorden vaker voorkomen als je een  
zeker woord
gezien hebt.)

- Dit kan goed gebruikt worden om verwisselingen zoals weide / wijdde  
/ wijde te vinden.  (De koe in de weide / De priester wijdde / De  
wijde straat)

2. Grammatica patroon. (Woorden die vaak gepaard gaan met een zeker  
patroon in de grammatica (1 of 2 woorden ervoor of erna.) Goed voor  
verwisselingen zoals hij/bij of nog/noch.

Ik ben nu nog met de laatste groep aan het stoeien. Om de  
verzamelingen n-grammen binnen de perken te houden wil ik de  
statistieken verzamelen voor woordsoorten/woordvormen ipv. specifieke  
woorden. In ieder geval waar het woorden uit het lexicon betreft (dat  
is met name de hoofdgroepen znw, bnw, ww, en bijw.)

Hij gebruikt levensthein afstanden om potentiele misspellingen te  
vinden, en dan via context ze aan elkaar te koppelen. Iets dat volgens  
mij dit IBM tooltje ook doet:

http://www.alphaworks.ibm.com/tech/csspell

Ik ga uit van vooraf vastgestelde "confusion sets"  
(verwarringsverzamelingen) die met name zijn gebaseerd op sterk op  
elkaar lijkende letters, zoals de h en de b (hij/bij), f en t  
(hef/het), ni en m (niet, met), n en u (zou, zon).

Ik probeerde de codes uit jullie database te gebruiken, maar heb  
daarvan alleen een beperkt overzicht gevonden, waar voor mijn gevoel  
nog een aantal lacunes zitten. (Gebaseerd op de op het Engels  
toegespitste BNC codes?)

http://www.natcorp.ox.ac.uk/
http://www.kilgarriff.co.uk/BNC_lists/poscodes.html

Met name het voornaamwoord in al zijn varianten lijkt te ontbreken in  
de lijst die ik vond. (via:

http://lists.uitwisselplatform.nl/pipermail/opentaal-discussie/2007-November/001728.html)

Heb je hiervan een uptodate uitdraaitje?

Ik probeer er een wat systematischer lijstje van te maken.

Mijn vorderingen documenteer ik op:

http://www.pgdp.net/wiki/User:Jhellingman/Tools/ScannoHeatMap


Jeroen.

Quoting Bart Knubben <bart@...>:

> Dag Jeroen,
>
> Op 17-04-08 heeft jeroen@...<jeroen@...> het volgende geschreven:
>> Quoting "r.baars" <r.j.baars@...>:
>
>> > Heb je trouwens kennis genomen van het artikeltje laatst over een
>> > slimme spellcheck van Martin Reynaart?
>> > Wat ik van zijn artikel begrijp is hij met hetzelfde bezig, en heeft
>> > een slimme truc.
>> >
>>
>>  Nee, dit artikel ken ik niet. Ben zeker geinterreseerd.
> Zie:  
> http://lists.uitwisselplatform.nl/pipermail/opentaal-discussie/2008-April/002130.html
>
> --
> Vriendelijke groet,
> Bart Knubben
>
> | http://www.knubben.org | http://www.opentaal.org |
>




_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

 « Return to Thread: Nieuw oogstprogramma

LightInTheBox - Buy quality products at wholesale price