« Return to Thread: Nieuw oogstprogramma

Re: Woordsoorten database

by jeroen-20 :: Rate this Message:

Reply to Author | View in Thread

Quoting "r.baars" <r.j.baars@...>:

> Jeroen,
>
> Die lijst hebben we, maar die is nog volop in wording.

Heel mooi. Ik heb de spellingslijst uit 1914, en daaruit is met wat  
slimmigheidjes ook de woordsoort voor een groot aantal gevallen te  
herleiden: http://www.gutenberg.org/etext/22722

> Wellicht kunnen we elkaar helpen.

Zeker.

> Mogelijk kunnen we vanuit het gezamenlijke belang werken aan aanvulling
> van de database op dat punt.
>
> Heb je trouwens kennis genomen van het artikeltje laatst over een
> slimme spellcheck van Martin Reynaart?
> Wat ik van zijn artikel begrijp is hij met hetzelfde bezig, en heeft
> een slimme truc.

Nee, dit artikel ken ik niet. Ben zeker geinterreseerd. Het gaat om  
fouten die regelmatig in het corpus voorkomen, b.v.:

met  name                 4635        niet name                 2      
      2317.5000000000000000000
met  behulp               1580        niet behulp               1      
      1580.0000000000000000000
met  uitzondering         804         niet uitzondering         1      
      804.0000000000000000000
met  nadruk               652         niet nadruk               1      
      652.0000000000000000000
met  opzet                652         niet opzet                1      
      652.0000000000000000000


> Je kunt dan specifieke voor spellingcontrole te verwachten fouten
> opzoeken ( q ipv g, m ipv in).

Dit heb ik bijvoorbeeld al gedaan door in de affix file van de OO spellchecker
dingen als REP m in toe te voegen.

> De lijst met woordsoorten is per woord in te zien op
> www.opentaalorg/opentaalbank/lab/word_relations.php
> en de woorden die nog behandeld moeten worden staan op:
> www.opentaalorg/opentaalbank/lab/words_to_tag.php

Kan ik af en toe een dump krijgen. Ik kan eventueel de oude spellingen met
de nieuwe joinen, en dan woordsoorten meennemen.


Jeroen.



_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

 « Return to Thread: Nieuw oogstprogramma

LightInTheBox - Buy quality products at wholesale price