Voor het maken van een context gevoelige spellingschecker voor detectie
van OCR scan-fouten (zoals de verwarring hij - bij en met - niet)
(zie
http://www.pgdp.net/wiki/User:Jhellingman/Tools/ScannoHeatMap en
http://www.pgdp.net/wiki/User:Jhellingman/Tools#TextHeatMap)
Ben ik op zoek naar een wordenlijst Nederlands met woordsoort
informatie. (znw, ww, bnw, etc.)
Hebben jullie een dergelijke lijst?
Als ie er niet is, kan ik hem zelf maken uit diverse bronnen, maar
daar zit natuurlijk wat werk in.
Ik werk met een behoorlijk groot corpus (100M woorden), en kan jullie
desgewenst de resultaten terugleveren, o.a. frequentie informatie van
woorden en woord-paren in het corpus.
Jeroen.
PS: frequentie top 10: 9MB
wcount dcount word
----------- ----------- ------------------------------------------------
3877655 68681 de
2911517 68244 van
2535449 65688 en
1979434 55895 het
1928331 62153 in
1580203 54124 een
1246213 53600 te
1073403 43462 dat
1011744 46917 die
851162 41048 zijn
paren frequentie top 10 (oude spelling): 90MB
first second count
-------------------------------- -------------------------------- -----------
van de 449052
in de 363899
van het 231876
in het 193520
en de 163444
van den 145128
van een 130495
op de 124194
aan de 109511
voor de 101304
Jeroen.
_______________________________________________
Over de OpenTaal-mailinglist:
http://opentaal.org/mailinglist.phpZoeken in het mailinglistarchief:
http://opentaal.org/zoeken.phpJuridische voorwaarden:
http://opentaal.org/licentie.php