|
View:
New views
11 Messages
—
Rating Filter:
Alert me
|
|
|
Nieuw oogstprogrammaBeste
OpenTalers,
Na wat tests op Linux en Windows is er een nieuw oogstprogramma. Het kent een tray- en een terminal-modus. Ook meldt het zelf wanneer een update noodzakelijk is, en bied deze aan. Het doet geen auto-download. De startpagina geeft aan waar het op te halen is: http://www.opentaal.org/opentaalbank/Harvester/UpdateHarvester.php Ik hoop dat velen van jullie weer mee gaan doen. mvg Ruud _______________________________________________ Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php Juridische voorwaarden: http://opentaal.org/licentie.php |
|
|
Re: Nieuw oogstprogrammaRuud Baars skribis 2008-04-17 9:54 (+0200):
> http://www.opentaal.org/opentaalbank/Harvester/UpdateHarvester.php Toch wel erg jammer dat het SSL-certificaat van www.uitwisselplatform.nl al vorig jaar is verlopen. Staat erg slordig, en het maakt downloaden vanwege de beveiligingswaarschuwing in nieuwere browsers erg lastig voor beginners. Zou het een idee zijn om, als Uitwisselplatform de zaken maar niet op orde kan krijgen, iets anders te gaan gebruiken? -- Met vriendelijke groet, Kind regards, Korajn salutojn, Juerd Waalboer: Perl hacker <#####@juerd.nl> <http://juerd.nl/sig> Convolution: ICT solutions and consultancy <sales@...> _______________________________________________ Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php Juridische voorwaarden: http://opentaal.org/licentie.php |
|
|
Woordsoorten databaseVoor het maken van een context gevoelige spellingschecker voor detectie van OCR scan-fouten (zoals de verwarring hij - bij en met - niet) (zie http://www.pgdp.net/wiki/User:Jhellingman/Tools/ScannoHeatMap en http://www.pgdp.net/wiki/User:Jhellingman/Tools#TextHeatMap) Ben ik op zoek naar een wordenlijst Nederlands met woordsoort informatie. (znw, ww, bnw, etc.) Hebben jullie een dergelijke lijst? Als ie er niet is, kan ik hem zelf maken uit diverse bronnen, maar daar zit natuurlijk wat werk in. Ik werk met een behoorlijk groot corpus (100M woorden), en kan jullie desgewenst de resultaten terugleveren, o.a. frequentie informatie van woorden en woord-paren in het corpus. Jeroen. PS: frequentie top 10: 9MB wcount dcount word ----------- ----------- ------------------------------------------------ 3877655 68681 de 2911517 68244 van 2535449 65688 en 1979434 55895 het 1928331 62153 in 1580203 54124 een 1246213 53600 te 1073403 43462 dat 1011744 46917 die 851162 41048 zijn paren frequentie top 10 (oude spelling): 90MB first second count -------------------------------- -------------------------------- ----------- van de 449052 in de 363899 van het 231876 in het 193520 en de 163444 van den 145128 van een 130495 op de 124194 aan de 109511 voor de 101304 Jeroen. _______________________________________________ Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php Juridische voorwaarden: http://opentaal.org/licentie.php |
|
|
|
|
|
Re: Nieuw oogstprogrammaRuud,
Het programma werkt bij mij op Ubuntu versie 6.06 niet. Ik heb wel versie 1.6 van Java op mijn computer staan. Output van het programma als ik het in het terminalvenster uitvoer: rene@eendje:~/Wordharverster6$ java Harverster Exception in thread "main" java.lang.NoClassDefFoundError: Harverster Caused by: java.lang.ClassNotFoundException: Harverster at java.net.URLClassLoader$1.run(URLClassLoader.java:200) at java.security.AccessController.doPrivileged(Native Method) at java.net.URLClassLoader.findClass(URLClassLoader.java:188) at java.lang.ClassLoader.loadClass(ClassLoader.java:306) at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:276) at java.lang.ClassLoader.loadClass(ClassLoader.java:251) at java.lang.ClassLoader.loadClassInternal(ClassLoader.java:319) versie van java die ik gebruik: rene@eendje:~/Wordharverster6$ java -version java version "1.6.0_04" Java(TM) SE Runtime Environment (build 1.6.0_04-b12) Java HotSpot(TM) Client VM (build 10.0-b19, mixed mode, sharing) rene@eendje:~/Wordharverster6$ Inhoud van de map van Wordharvester: rene@eendje:~/Wordharverster6$ ls -al totaal 96 drwxr-xr-x 2 rene rene 4096 2008-04-17 22:48 . drwxr-xr-x 133 rene rene 8192 2008-04-17 22:49 .. -rwx------ 1 rene rene 49 2008-04-17 22:48 harverster_start -rwx------ 1 rene rene 48 2008-04-17 22:36 harverster_start~ -rw-r--r-- 1 rene rene 53186 2008-04-17 09:08 Harvester.jar -rw-r--r-- 1 rene rene 8828 2008-04-15 18:35 readme.txt -rw-r--r-- 1 rene rene 41 2008-04-15 20:09 start.bat -rw-r--r-- 1 rene rene 40 2008-04-15 20:12 start-nogui.bat harverster_start is een bash script dat ik gemaakt heb om Wordharverster starten na het inloggen op mijn systeem. Het programma is toevallig toch niet op een andere manier gecompileerd o.i.d., want alle voorgaande versies van Wordharverster hebben met deze versie van java gewerkt. m.v.g, René Brink Op do, 17-04-2008 te 09:54 +0200, schreef Ruud Baars: > Beste OpenTalers, > > Na wat tests op Linux en Windows is er een nieuw oogstprogramma. > > Het kent een tray- en een terminal-modus. > Ook meldt het zelf wanneer een update noodzakelijk is, en bied deze > aan. Het doet geen auto-download. > > De startpagina geeft aan waar het op te halen is: > http://www.opentaal.org/opentaalbank/Harvester/UpdateHarvester.php > > > Ik hoop dat velen van jullie weer mee gaan doen. > > mvg > Ruud > > _______________________________________________ > Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php > Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php > Juridische voorwaarden: http://opentaal.org/licentie.php _______________________________________________ Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php Juridische voorwaarden: http://opentaal.org/licentie.php |
|
|
Re: Nieuw oogstprogrammaOp donderdag 17-04-2008 om 22:55 uur [tijdzone +0200], schreef Rene
Brink: > rene@eendje:~/Wordharverster6$ java Harverster Probeer Harvester eens met een r minder te schrijven? En als ie het dan nog niet vindt, moet je een classpath opgeven: iets als "java -classpath .:Harvester.jar Harvester" denk ik. groeten, -- Reinout van Schouwen _______________________________________________ Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php Juridische voorwaarden: http://opentaal.org/licentie.php |
|
|
Re: Nieuw oogstprogrammajava -jar Harverster.jar
Op Thursday 17 April 2008, schreef Rene Brink: > Ruud, > > Het programma werkt bij mij op Ubuntu versie 6.06 niet. Ik heb wel > versie 1.6 van Java op mijn computer staan. > > Output van het programma als ik het in het terminalvenster uitvoer: > > rene@eendje:~/Wordharverster6$ java Harverster > Exception in thread "main" java.lang.NoClassDefFoundError: Harverster > Caused by: java.lang.ClassNotFoundException: Harverster > at java.net.URLClassLoader$1.run(URLClassLoader.java:200) > at java.security.AccessController.doPrivileged(Native Method) > at java.net.URLClassLoader.findClass(URLClassLoader.java:188) > at java.lang.ClassLoader.loadClass(ClassLoader.java:306) > at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:276) > at java.lang.ClassLoader.loadClass(ClassLoader.java:251) > at java.lang.ClassLoader.loadClassInternal(ClassLoader.java:319) > > versie van java die ik gebruik: > > rene@eendje:~/Wordharverster6$ java -version > java version "1.6.0_04" > Java(TM) SE Runtime Environment (build 1.6.0_04-b12) > Java HotSpot(TM) Client VM (build 10.0-b19, mixed mode, sharing) > rene@eendje:~/Wordharverster6$ > > Inhoud van de map van Wordharvester: > > rene@eendje:~/Wordharverster6$ ls -al > totaal 96 > drwxr-xr-x 2 rene rene 4096 2008-04-17 22:48 . > drwxr-xr-x 133 rene rene 8192 2008-04-17 22:49 .. > -rwx------ 1 rene rene 49 2008-04-17 22:48 harverster_start > -rwx------ 1 rene rene 48 2008-04-17 22:36 harverster_start~ > -rw-r--r-- 1 rene rene 53186 2008-04-17 09:08 Harvester.jar > -rw-r--r-- 1 rene rene 8828 2008-04-15 18:35 readme.txt > -rw-r--r-- 1 rene rene 41 2008-04-15 20:09 start.bat > -rw-r--r-- 1 rene rene 40 2008-04-15 20:12 start-nogui.bat > > harverster_start is een bash script dat ik gemaakt heb om Wordharverster > starten na het inloggen op mijn systeem. > > Het programma is toevallig toch niet op een andere manier gecompileerd > o.i.d., want alle voorgaande versies van Wordharverster hebben met deze > versie van java gewerkt. > > m.v.g, > > René Brink > > > > > > > Op do, 17-04-2008 te 09:54 +0200, schreef Ruud Baars: > > Beste OpenTalers, > > > > Na wat tests op Linux en Windows is er een nieuw oogstprogramma. > > > > Het kent een tray- en een terminal-modus. > > Ook meldt het zelf wanneer een update noodzakelijk is, en bied deze > > aan. Het doet geen auto-download. > > > > De startpagina geeft aan waar het op te halen is: > > http://www.opentaal.org/opentaalbank/Harvester/UpdateHarvester.php > > > > > > Ik hoop dat velen van jullie weer mee gaan doen. > > > > mvg > > Ruud > > > > _______________________________________________ > > Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php > > Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php > > Juridische voorwaarden: http://opentaal.org/licentie.php > > _______________________________________________ Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php Juridische voorwaarden: http://opentaal.org/licentie.php |
|
|
Re: Nieuw oogstprogrammaReinout, Ruud en Bob,
Bedankt voor de suggesties. Zowel de optie java -classpath .:Harvester.jar Harvester als java -jar Harvester.jar werken bij mij. Bedankt! groetjes, René Op do, 17-04-2008 te 23:01 +0200, schreef Reinout van Schouwen: > Op donderdag 17-04-2008 om 22:55 uur [tijdzone +0200], schreef Rene > Brink: > > > rene@eendje:~/Wordharverster6$ java Harverster > > Probeer Harvester eens met een r minder te schrijven? > > En als ie het dan nog niet vindt, moet je een classpath opgeven: iets > als "java -classpath .:Harvester.jar Harvester" denk ik. > > groeten, > > _______________________________________________ > Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php > Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php > Juridische voorwaarden: http://opentaal.org/licentie.php _______________________________________________ Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php Juridische voorwaarden: http://opentaal.org/licentie.php |
|
|
Re: Woordsoorten databaseDag Jeroen,
Op 17-04-08 heeft jeroen@...<jeroen@...> het volgende geschreven: > Quoting "r.baars" <r.j.baars@...>: > > Heb je trouwens kennis genomen van het artikeltje laatst over een > > slimme spellcheck van Martin Reynaart? > > Wat ik van zijn artikel begrijp is hij met hetzelfde bezig, en heeft > > een slimme truc. > > > > Nee, dit artikel ken ik niet. Ben zeker geinterreseerd. Zie: http://lists.uitwisselplatform.nl/pipermail/opentaal-discussie/2008-April/002130.html -- Vriendelijke groet, Bart Knubben | http://www.knubben.org | http://www.opentaal.org | _______________________________________________ Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php Juridische voorwaarden: http://opentaal.org/licentie.php |
|
|
Re: Woordsoorten databaseHoi Bart, Bedankt voor de verwijzing naar dit artikel. Zeker een goede samenvatting, en sluit aan bij mijn onderzoekje. Ik heb ook zijn proefschrift bekeken, die uitgebreider ingaat op de details. http://ilk.uvt.nl/~mre/ En vergelijkbaar artikel voor het Engels is hier. http://citeseer.ist.psu.edu/golding96applying.html Mijn eigen tooltje doet het volgende 1. Context (woorden die binnen 10 woorden vaker voorkomen als je een zeker woord gezien hebt.) - Dit kan goed gebruikt worden om verwisselingen zoals weide / wijdde / wijde te vinden. (De koe in de weide / De priester wijdde / De wijde straat) 2. Grammatica patroon. (Woorden die vaak gepaard gaan met een zeker patroon in de grammatica (1 of 2 woorden ervoor of erna.) Goed voor verwisselingen zoals hij/bij of nog/noch. Ik ben nu nog met de laatste groep aan het stoeien. Om de verzamelingen n-grammen binnen de perken te houden wil ik de statistieken verzamelen voor woordsoorten/woordvormen ipv. specifieke woorden. In ieder geval waar het woorden uit het lexicon betreft (dat is met name de hoofdgroepen znw, bnw, ww, en bijw.) Hij gebruikt levensthein afstanden om potentiele misspellingen te vinden, en dan via context ze aan elkaar te koppelen. Iets dat volgens mij dit IBM tooltje ook doet: http://www.alphaworks.ibm.com/tech/csspell Ik ga uit van vooraf vastgestelde "confusion sets" (verwarringsverzamelingen) die met name zijn gebaseerd op sterk op elkaar lijkende letters, zoals de h en de b (hij/bij), f en t (hef/het), ni en m (niet, met), n en u (zou, zon). Ik probeerde de codes uit jullie database te gebruiken, maar heb daarvan alleen een beperkt overzicht gevonden, waar voor mijn gevoel nog een aantal lacunes zitten. (Gebaseerd op de op het Engels toegespitste BNC codes?) http://www.natcorp.ox.ac.uk/ http://www.kilgarriff.co.uk/BNC_lists/poscodes.html Met name het voornaamwoord in al zijn varianten lijkt te ontbreken in de lijst die ik vond. (via: http://lists.uitwisselplatform.nl/pipermail/opentaal-discussie/2007-November/001728.html) Heb je hiervan een uptodate uitdraaitje? Ik probeer er een wat systematischer lijstje van te maken. Mijn vorderingen documenteer ik op: http://www.pgdp.net/wiki/User:Jhellingman/Tools/ScannoHeatMap Jeroen. Quoting Bart Knubben <bart@...>: > Dag Jeroen, > > Op 17-04-08 heeft jeroen@...<jeroen@...> het volgende geschreven: >> Quoting "r.baars" <r.j.baars@...>: > >> > Heb je trouwens kennis genomen van het artikeltje laatst over een >> > slimme spellcheck van Martin Reynaart? >> > Wat ik van zijn artikel begrijp is hij met hetzelfde bezig, en heeft >> > een slimme truc. >> > >> >> Nee, dit artikel ken ik niet. Ben zeker geinterreseerd. > Zie: > http://lists.uitwisselplatform.nl/pipermail/opentaal-discussie/2008-April/002130.html > > -- > Vriendelijke groet, > Bart Knubben > > | http://www.knubben.org | http://www.opentaal.org | > _______________________________________________ Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php Juridische voorwaarden: http://opentaal.org/licentie.php |
|
|
|
| Free Forum Powered by Nabble | Forum Help |