Criteria voor opnamen in de nieuwe lijst

View: New views
6 Messages — Rating Filter:   Alert me  

Criteria voor opnamen in de nieuwe lijst

by Ruud Baars :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message


Ik stel minimaal de volgende criteria voor:

0) Geconstateerde fouten in de lijst worden gecorrigeerd.

1) de basiswoorden moeten al als basiswoord in onze lijst staan.
Dit moet wel, anders verliezen we onze certificeringsstatus voor de
nieuwe lijst.

2) De flexvormen moeten bij een van de bovenstaande flexvormen horen.
Dat is inherent aan de certificering.

3) We moeten minimaal 1 zin hebben geoogst met het woord (anders hebben
we geen voorbeeld..) Dit getal kan natuurlijk ook hoger worden gekozen.

4) Het woord moet minimaal # keer op internet zijn gevonden. We hadden
hier ooit het getal 4 voor, maar dat mag ook wat hoger.

5) We houden basiswoord en afgeleiden bij elkaar. Niet alleen is dat
voor de structuur handig, het is ook efficiënt voor de vorming van de
woordenlijst (i.v.m. affixcompressie)

6) Woorden die minder gebruikelijk zijn en gemakkelijk een typefout kan
zijn van een ander correct woord dat veel gebruikelijker is, kunnen we
weglaten.


Hier staat dus absoluut niet in dat woorden zonder meer opgenomen worden
als ze goed zijn; we hoeven echt de uiterst ongebruikelijke woorden als
aliëneren niet per se over te nemen.

Bij de eerdere lijst hebben we ook een controle tegen een groter corpus
dan het onze gedaan. Voor de basiswoorden is dus al aan die conditie
voldaan.

Meer suggesties voor criteria zijn welkom.

Bart, is dit een goede aanvulling?

mvg
Ruud
_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

Re: Criteria voor opnamen in de nieuwe lijst

by Bart Knubben :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

Dag Ruud, Dag allen,

Ik kwam zojuist de stappen tegen die Simon voor het genereren van de
eerste concept-versie van de huidige woordenlijst heeft gezet. Dat
lijkt me nuttige informatie voor onze sessie op 7 juni. Zie:
http://www.uitwisselplatform.nl/pipermail/opentaal-discussie/2006-August/thread.html

Hieronder volgt een reactie op jouw goede aanzet met criteria.

2008/5/27 Ruud Baars <ruud.baars@...>:
>
> Ik stel minimaal de volgende criteria voor:
>
> 0) Geconstateerde fouten in de lijst worden gecorrigeerd.
Ja, zijn dit alleen de in de Google-spreadsheet genoemde fouten (
http://spreadsheets.google.com/pub?key=pP28Lt93l_6Ek4BCm1bE6Ig )? Of
zijn er meer lijstjes?

>
> 1) de basiswoorden moeten al als basiswoord in onze lijst staan.
> Dit moet wel, anders verliezen we onze certificeringsstatus voor de nieuwe
> lijst.
Ja, als we nieuwe basisvormen toevoegen dan moeten we opnieuw de
NTu-certificering doorlopen. Om het werk af te bakenen en behapbaar te
houden, is het wellicht verstandig om geen basisvormen toe te voegen
aan de aanstaande versie van de woordenlijst.

>
> 2) De flexvormen moeten bij een van de bovenstaande flexvormen horen.
> Dat is inherent aan de certificering.
Je bedoelt hier waarschijnlijk: "De flexvormen moeten bij een van de
bovenstaande *basisvormen* horen." Dat lijkt me een goed uitgangspunt

>
> 3) We moeten minimaal 1 zin hebben geoogst met het woord (anders hebben we
> geen voorbeeld..) Dit getal kan natuurlijk ook hoger worden gekozen.
Hoe verhoudt dit zich tot punt 4?

>
> 4) Het woord moet minimaal # keer op internet zijn gevonden. We hadden hier
> ooit het getal 4 voor, maar dat mag ook wat hoger.
Internet is een belangrijk corpus, maar zegt niet alles en kan blinde
vlekken hebben. Naast internet als corpus, lijkt het me daarom
verstandig om Martin Reynaert opnieuw te vragen om een
corpusfrequentieanalyse van onze woordenlijst te maken.

> 5) We houden basiswoord en afgeleiden bij elkaar. Niet alleen is dat voor de
> structuur handig, het is ook efficiënt voor de vorming van de woordenlijst
> (i.v.m. affixcompressie)
Helemaal mee eens! Op die manier kan ook relatief eenvoudig worden
bepaald of bepaalde flexvormen ontbreken. Een regelmatig werkwoord
heeft een bepaald aantal flexvormen. Bijvoorbeeld: spelen, speel,
speelt, speelde, speelden, gespeeld, spelend. De deelwoorden kunnen
ook nog als bijvoeglijk naamwoord worden gebruikt. In bepaalde
gevallen komt er dan een "e" bij: gespeelde en spelende. Tot slot is
er nog de weinig voorkomende aanvoegende wijs: spele

>
> 6) Woorden die minder gebruikelijk zijn en gemakkelijk een typefout kan zijn
> van een ander correct woord dat veel gebruikelijker is, kunnen we weglaten.
Hiervoor dienen we een norm te hanteren. Wanneer is een woord minder
gebruikelijk? En wanneer is de kans groot dat het een typefout
betreft? Jouw analyse op basis van Levenshtein en Martin Reynaerts
methode kan hierbij helpen.

> Hier staat dus absoluut niet in dat woorden zonder meer opgenomen worden als
> ze goed zijn; we hoeven echt de uiterst ongebruikelijke woorden als
> aliëneren niet per se over te nemen.
Eens, maar we moeten op basis van (1) de corpuswoordfrequentie en (2)
de kans op een typefout een eenduidige, heldere norm stellen. Wie kan
een geschikte norm bedenken op basis van deze parameters?

--
Vriendelijke groet,
Bart Knubben

| http://www.knubben.org | http://www.opentaal.org |

> http://www.minmen.nl - Een blog over de impact van het Internet op onze maatschappij en publieke sector <


_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

Re: Criteria voor opnamen in de nieuwe lijst

by Hendrik Maryns-3 :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

Ruud Baars schreef:

> <div class="moz-text-flowed" style="font-family: -moz-fixed">
> Ik stel minimaal de volgende criteria voor:
>
> 0) Geconstateerde fouten in de lijst worden gecorrigeerd.
>
> 1) de basiswoorden moeten al als basiswoord in onze lijst staan.
> Dit moet wel, anders verliezen we onze certificeringsstatus voor de
> nieuwe lijst.
>
> 2) De flexvormen moeten bij een van de bovenstaande flexvormen horen.
> Dat is inherent aan de certificering.
>
> 3) We moeten minimaal 1 zin hebben geoogst met het woord (anders hebben
> we geen voorbeeld..) Dit getal kan natuurlijk ook hoger worden gekozen.
>
> 4) Het woord moet minimaal # keer op internet zijn gevonden. We hadden
> hier ooit het getal 4 voor, maar dat mag ook wat hoger.
>
> 5) We houden basiswoord en afgeleiden bij elkaar. Niet alleen is dat
> voor de structuur handig, het is ook efficiënt voor de vorming van de
> woordenlijst (i.v.m. affixcompressie)
>
> 6) Woorden die minder gebruikelijk zijn en gemakkelijk een typefout kan
> zijn van een ander correct woord dat veel gebruikelijker is, kunnen we
> weglaten.
>
>
> Hier staat dus absoluut niet in dat woorden zonder meer opgenomen worden
> als ze goed zijn; we hoeven echt de uiterst ongebruikelijke woorden als
> aliëneren niet per se over te nemen.
>
> Bij de eerdere lijst hebben we ook een controle tegen een groter corpus
> dan het onze gedaan. Voor de basiswoorden is dus al aan die conditie
> voldaan.
>
> Meer suggesties voor criteria zijn welkom.
Ik denk dat dit er uiteindelijk op uit zal draaien dat
spellingcorrectieprogramma’s nog veel slimmer gemaakt moeten worden.  Ik
denk aan een basiswoordenlijst waar enkel de woorden instaan die 90%
(80, 70?) van alle teksten vormen, dan aanvullende lijsten met minder
voorkomende woorden.  Bovendien aparte lijsten met vakspecifieke
terminologie (die dan uiteraard overlappend kunnen zijn), die de
gebruiker naar keuze kan in- en uitschakelen, en lijsten met minder
frequente woorden die echter sterk lijken op frequentere woorden en dus
een typefout (brr, volgens mij moet dat toch echt typfout, maar het GB
is het er niet mee eens http://www.onzetaal.nl/advies/typfout.php)
zouden kunnen zijn.  Dan kan bij het voorkomen van die woorden een
waarschuwing gegeven worden enz.  Allemaal enhancement requests voor
Hunspell, veronderstel ik (alhoewel wij al in staat zijn een aantal van
die lijsten te produceren!)

Totdat dit allemaal mogelijk is, lijken me de suggesties hierboven zeer
goed.  Om de precieze grenzen te bepalen zullen enkele testjes gedaan
moeten worden.

Zie ook het README van Kevin’s word list:
http://wordlist.sourceforge.net/  Hij bied uitgebreide lijsten aan maar
raad ook af om de lijsten boven de 70 te gebruiken voor
spellingcontrole, om gelijkaardige redenen.

Groet, H.
--
Hendrik Maryns
Herrenberger Straße 40
D-72070 Tübingen
+49707143783
http://tcl.sfs.uni-tuebingen.de/~hendrik/
=================
www.lieverleven.be     Hier kan iedereen wat van leren.
http://aouw.org        Art Of Urban Warfare



_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

signature.asc (262 bytes) Download Attachment

Re: Re: Criteria voor opnamen in de nieuwe lijst

by Hendrik Maryns-3 :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

Bart Knubben schreef:

>> 5) We houden basiswoord en afgeleiden bij elkaar. Niet alleen is dat voor de
>> structuur handig, het is ook efficiënt voor de vorming van de woordenlijst
>> (i.v.m. affixcompressie)
> Helemaal mee eens! Op die manier kan ook relatief eenvoudig worden
> bepaald of bepaalde flexvormen ontbreken. Een regelmatig werkwoord
> heeft een bepaald aantal flexvormen. Bijvoorbeeld: spelen, speel,
> speelt, speelde, speelden, gespeeld, spelend. De deelwoorden kunnen
> ook nog als bijvoeglijk naamwoord worden gebruikt. In bepaalde
> gevallen komt er dan een "e" bij: gespeelde en spelende. Tot slot is
> er nog de weinig voorkomende aanvoegende wijs: spele
In het kader van ‘geen exotische of weinig voorkomende woorden opnemen’
stel ik voor de aanvoegende wijs in zijn geheel weg te laten, behalve
misschien voor enkele specifieke woorden als ‘zijn’, ‘leven’.

H.
--
Hendrik Maryns
Herrenberger Straße 40
D-72070 Tübingen
+49707143783
http://tcl.sfs.uni-tuebingen.de/~hendrik/
=================
www.lieverleven.be     Hier kan iedereen wat van leren.
http://aouw.org        Art Of Urban Warfare



_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

signature.asc (262 bytes) Download Attachment

Parent Message unknown Re: Criteria voor opnamen in de nieuwe lijst

by Simon Brouwer :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

Hoi Ruud,

Ruud Baars schreef:

> Bart, Allen,
>
>
> Ik kom bij het koppelen ook woorden tegen die eigenlijk geen afgeleide
> zijn in de normale zin van het woord, maar een weergave van de klemton in
> het woord.
>
> Nu vraag ik me af hoe we met dergelijek woorden als één  om moeten gaan.
>
> Mogen we die zien als flexwoord van het woord zonder klemtoonnotatie, of
> als afzonderlijke vorm, die gekeurd moet worden?

Ik zie ze als afgeleide vorm, dus thuishorend in de niet te keuren lijst.

--
Vriendelijke groet,

Simon Brouwer
-*- nl.openoffice.org -*- http://www.opentaal.org -*-

_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php

Re: Criteria voor opnamen in de nieuwe lijst

by r.baars :: Rate this Message:

Reply to Author | View Threaded | Show Only this Message

Simon Brouwer schreef:
Simon,

Was het expliciet met de TaalUnie afgesproken dat de klemtoonwoorden als flex gezien mochten worden? Ik heb telefonisch vernomen dat ze bete apart kunne worden gehouden en aangeboden (Ongeveer net als met de namen).

mvg
Ruud
Hoi Ruud,

Ruud Baars schreef:
  
Bart, Allen,


Ik kom bij het koppelen ook woorden tegen die eigenlijk geen afgeleide
zijn in de normale zin van het woord, maar een weergave van de klemton in
het woord.

Nu vraag ik me af hoe we met dergelijek woorden als één  om moeten gaan.

Mogen we die zien als flexwoord van het woord zonder klemtoonnotatie, of
als afzonderlijke vorm, die gekeurd moet worden?
    

Ik zie ze als afgeleide vorm, dus thuishorend in de niet te keuren lijst.

  


_______________________________________________
Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php
Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php
Juridische voorwaarden: http://opentaal.org/licentie.php
LightInTheBox - Buy quality products at wholesale price