« Return to Thread: Nieuw oogstprogramma

Woordsoorten database

by jeroen-20 :: Rate this Message:

Reply to Author | View in Thread


Voor het maken van een context gevoelige spellingschecker voor detectie
van OCR scan-fouten (zoals de verwarring hij - bij en met - niet)

(zie http://www.pgdp.net/wiki/User:Jhellingman/Tools/ScannoHeatMap en
http://www.pgdp.net/wiki/User:Jhellingman/Tools#TextHeatMap)

Ben ik op zoek naar een wordenlijst Nederlands met woordsoort  
informatie. (znw, ww, bnw, etc.)

Hebben jullie een dergelijke lijst?

Als ie er niet is, kan ik hem zelf maken uit diverse bronnen, maar  
daar zit natuurlijk wat werk in.

Ik werk met een behoorlijk groot corpus (100M woorden), en kan jullie  
desgewenst de resultaten terugleveren, o.a. frequentie informatie van  
woorden en woord-paren in het corpus.

Jeroen.


PS: frequentie top 10: 9MB

wcount      dcount      word
----------- ----------- ------------------------------------------------
3877655     68681       de
2911517     68244       van
2535449     65688       en
1979434     55895       het
1928331     62153       in
1580203     54124       een
1246213     53600       te
1073403     43462       dat
1011744     46917       die
851162      41048       zijn

paren frequentie top 10 (oude spelling): 90MB

first                            second                           count
-------------------------------- -------------------------------- -----------
van                              de                               449052
in                               de                               363899
van                              het                              231876
in                               het                              193520
en                               de                               163444
van                              den                              145128
van                              een                              130495
op                               de                               124194
aan                              de                               109511
voor                             de                               101304


Jeroen.




_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

 « Return to Thread: Nieuw oogstprogramma

LightInTheBox - Buy quality products at wholesale price