Quoting "r.baars" <
r.j.baars@...>:
> Jeroen,
>
> Die lijst hebben we, maar die is nog volop in wording.
Heel mooi. Ik heb de spellingslijst uit 1914, en daaruit is met wat
slimmigheidjes ook de woordsoort voor een groot aantal gevallen te
herleiden:
http://www.gutenberg.org/etext/22722> Wellicht kunnen we elkaar helpen.
Zeker.
> Mogelijk kunnen we vanuit het gezamenlijke belang werken aan aanvulling
> van de database op dat punt.
>
> Heb je trouwens kennis genomen van het artikeltje laatst over een
> slimme spellcheck van Martin Reynaart?
> Wat ik van zijn artikel begrijp is hij met hetzelfde bezig, en heeft
> een slimme truc.
Nee, dit artikel ken ik niet. Ben zeker geinterreseerd. Het gaat om
fouten die regelmatig in het corpus voorkomen, b.v.:
met name 4635 niet name 2
2317.5000000000000000000
met behulp 1580 niet behulp 1
1580.0000000000000000000
met uitzondering 804 niet uitzondering 1
804.0000000000000000000
met nadruk 652 niet nadruk 1
652.0000000000000000000
met opzet 652 niet opzet 1
652.0000000000000000000
> Je kunt dan specifieke voor spellingcontrole te verwachten fouten
> opzoeken ( q ipv g, m ipv in).
Dit heb ik bijvoorbeeld al gedaan door in de affix file van de OO spellchecker
dingen als REP m in toe te voegen.
> De lijst met woordsoorten is per woord in te zien op
> www.opentaalorg/opentaalbank/lab/word_relations.php
> en de woorden die nog behandeld moeten worden staan op:
> www.opentaalorg/opentaalbank/lab/words_to_tag.php
Kan ik af en toe een dump krijgen. Ik kan eventueel de oude spellingen met
de nieuwe joinen, en dan woordsoorten meennemen.
Jeroen.
_______________________________________________
Over de OpenTaal-mailinglist:
http://opentaal.org/mailinglist.phpZoeken in het mailinglistarchief:
http://opentaal.org/zoeken.phpJuridische voorwaarden:
http://opentaal.org/licentie.php