Jeroen,
Wat betreft de tags ...
Omdat de tags (door mij) worden opgezet speciaal voor de grammatica, heb
ik gefocussed op de toepassingsverschillen. Op sommige plaatsen is het dus
gedetailleerder, op andere plaatsen globaler dan gebruikelijke tags.
Ik kan ook niet garanderen dat ze taalkundig helemaal juist zijn. Ik denk
ook dat ze nog wel eens zouden kunen veranderen om meer relaties te kunnen
weergeven.
Een aantal, relatief weinig voorkomende woordsoorten heb ik nog helemaal
niet benoemd. Omdat ik geen taalkundige ben, voel ik me ook niet zeker
genoeg om de bijzondere te benoemen. Die woorden zijn ook als woord of als
regexp in de grammatica te ondervangen.
mvg
Ruud
>
> Hoi Bart,
>
> Bedankt voor de verwijzing naar dit artikel. Zeker een goede
> samenvatting, en sluit aan bij mijn onderzoekje.
>
> Ik heb ook zijn proefschrift bekeken, die uitgebreider ingaat op de
> details.
>
>
http://ilk.uvt.nl/~mre/>
> En vergelijkbaar artikel voor het Engels is hier.
>
>
http://citeseer.ist.psu.edu/golding96applying.html>
> Mijn eigen tooltje doet het volgende
>
> 1. Context (woorden die binnen 10 woorden vaker voorkomen als je een
> zeker woord
> gezien hebt.)
>
> - Dit kan goed gebruikt worden om verwisselingen zoals weide / wijdde
> / wijde te vinden. (De koe in de weide / De priester wijdde / De
> wijde straat)
>
> 2. Grammatica patroon. (Woorden die vaak gepaard gaan met een zeker
> patroon in de grammatica (1 of 2 woorden ervoor of erna.) Goed voor
> verwisselingen zoals hij/bij of nog/noch.
>
> Ik ben nu nog met de laatste groep aan het stoeien. Om de
> verzamelingen n-grammen binnen de perken te houden wil ik de
> statistieken verzamelen voor woordsoorten/woordvormen ipv. specifieke
> woorden. In ieder geval waar het woorden uit het lexicon betreft (dat
> is met name de hoofdgroepen znw, bnw, ww, en bijw.)
>
> Hij gebruikt levensthein afstanden om potentiele misspellingen te
> vinden, en dan via context ze aan elkaar te koppelen. Iets dat volgens
> mij dit IBM tooltje ook doet:
>
>
http://www.alphaworks.ibm.com/tech/csspell>
> Ik ga uit van vooraf vastgestelde "confusion sets"
> (verwarringsverzamelingen) die met name zijn gebaseerd op sterk op
> elkaar lijkende letters, zoals de h en de b (hij/bij), f en t
> (hef/het), ni en m (niet, met), n en u (zou, zon).
>
> Ik probeerde de codes uit jullie database te gebruiken, maar heb
> daarvan alleen een beperkt overzicht gevonden, waar voor mijn gevoel
> nog een aantal lacunes zitten. (Gebaseerd op de op het Engels
> toegespitste BNC codes?)
>
>
http://www.natcorp.ox.ac.uk/>
http://www.kilgarriff.co.uk/BNC_lists/poscodes.html>
> Met name het voornaamwoord in al zijn varianten lijkt te ontbreken in
> de lijst die ik vond. (via:
>
>
http://lists.uitwisselplatform.nl/pipermail/opentaal-discussie/2007-November/001728.html)
>
> Heb je hiervan een uptodate uitdraaitje?
>
> Ik probeer er een wat systematischer lijstje van te maken.
>
> Mijn vorderingen documenteer ik op:
>
>
http://www.pgdp.net/wiki/User:Jhellingman/Tools/ScannoHeatMap>
>
> Jeroen.
>
> Quoting Bart Knubben <
bart@...>:
>
>> Dag Jeroen,
>>
>> Op 17-04-08 heeft
jeroen@...<
jeroen@...> het volgende
>> geschreven:
>>> Quoting "r.baars" <
r.j.baars@...>:
>>
>>> > Heb je trouwens kennis genomen van het artikeltje laatst over een
>>> > slimme spellcheck van Martin Reynaart?
>>> > Wat ik van zijn artikel begrijp is hij met hetzelfde bezig, en heeft
>>> > een slimme truc.
>>> >
>>>
>>> Nee, dit artikel ken ik niet. Ben zeker geinterreseerd.
>> Zie:
>>
http://lists.uitwisselplatform.nl/pipermail/opentaal-discussie/2008-April/002130.html>>
>> --
>> Vriendelijke groet,
>> Bart Knubben
>>
>> |
http://www.knubben.org |
http://www.opentaal.org |
>>
>
>
>
>
> _______________________________________________
> Over de OpenTaal-mailinglist:
http://opentaal.org/mailinglist.php> Zoeken in het mailinglistarchief:
http://opentaal.org/zoeken.php> Juridische voorwaarden:
http://opentaal.org/licentie.php_______________________________________________
Over de OpenTaal-mailinglist:
http://opentaal.org/mailinglist.phpZoeken in het mailinglistarchief:
http://opentaal.org/zoeken.phpJuridische voorwaarden:
http://opentaal.org/licentie.php