|
View:
New views
6 Messages
—
Rating Filter:
Alert me
|
|
|
Criteria voor opnamen in de nieuwe lijstIk stel minimaal de volgende criteria voor: 0) Geconstateerde fouten in de lijst worden gecorrigeerd. 1) de basiswoorden moeten al als basiswoord in onze lijst staan. Dit moet wel, anders verliezen we onze certificeringsstatus voor de nieuwe lijst. 2) De flexvormen moeten bij een van de bovenstaande flexvormen horen. Dat is inherent aan de certificering. 3) We moeten minimaal 1 zin hebben geoogst met het woord (anders hebben we geen voorbeeld..) Dit getal kan natuurlijk ook hoger worden gekozen. 4) Het woord moet minimaal # keer op internet zijn gevonden. We hadden hier ooit het getal 4 voor, maar dat mag ook wat hoger. 5) We houden basiswoord en afgeleiden bij elkaar. Niet alleen is dat voor de structuur handig, het is ook efficiënt voor de vorming van de woordenlijst (i.v.m. affixcompressie) 6) Woorden die minder gebruikelijk zijn en gemakkelijk een typefout kan zijn van een ander correct woord dat veel gebruikelijker is, kunnen we weglaten. Hier staat dus absoluut niet in dat woorden zonder meer opgenomen worden als ze goed zijn; we hoeven echt de uiterst ongebruikelijke woorden als aliëneren niet per se over te nemen. Bij de eerdere lijst hebben we ook een controle tegen een groter corpus dan het onze gedaan. Voor de basiswoorden is dus al aan die conditie voldaan. Meer suggesties voor criteria zijn welkom. Bart, is dit een goede aanvulling? mvg Ruud _______________________________________________ Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php Juridische voorwaarden: http://opentaal.org/licentie.php |
|
|
Re: Criteria voor opnamen in de nieuwe lijstDag Ruud, Dag allen,
Ik kwam zojuist de stappen tegen die Simon voor het genereren van de eerste concept-versie van de huidige woordenlijst heeft gezet. Dat lijkt me nuttige informatie voor onze sessie op 7 juni. Zie: http://www.uitwisselplatform.nl/pipermail/opentaal-discussie/2006-August/thread.html Hieronder volgt een reactie op jouw goede aanzet met criteria. 2008/5/27 Ruud Baars <ruud.baars@...>: > > Ik stel minimaal de volgende criteria voor: > > 0) Geconstateerde fouten in de lijst worden gecorrigeerd. Ja, zijn dit alleen de in de Google-spreadsheet genoemde fouten ( http://spreadsheets.google.com/pub?key=pP28Lt93l_6Ek4BCm1bE6Ig )? Of zijn er meer lijstjes? > > 1) de basiswoorden moeten al als basiswoord in onze lijst staan. > Dit moet wel, anders verliezen we onze certificeringsstatus voor de nieuwe > lijst. Ja, als we nieuwe basisvormen toevoegen dan moeten we opnieuw de NTu-certificering doorlopen. Om het werk af te bakenen en behapbaar te houden, is het wellicht verstandig om geen basisvormen toe te voegen aan de aanstaande versie van de woordenlijst. > > 2) De flexvormen moeten bij een van de bovenstaande flexvormen horen. > Dat is inherent aan de certificering. Je bedoelt hier waarschijnlijk: "De flexvormen moeten bij een van de bovenstaande *basisvormen* horen." Dat lijkt me een goed uitgangspunt > > 3) We moeten minimaal 1 zin hebben geoogst met het woord (anders hebben we > geen voorbeeld..) Dit getal kan natuurlijk ook hoger worden gekozen. Hoe verhoudt dit zich tot punt 4? > > 4) Het woord moet minimaal # keer op internet zijn gevonden. We hadden hier > ooit het getal 4 voor, maar dat mag ook wat hoger. Internet is een belangrijk corpus, maar zegt niet alles en kan blinde vlekken hebben. Naast internet als corpus, lijkt het me daarom verstandig om Martin Reynaert opnieuw te vragen om een corpusfrequentieanalyse van onze woordenlijst te maken. > 5) We houden basiswoord en afgeleiden bij elkaar. Niet alleen is dat voor de > structuur handig, het is ook efficiënt voor de vorming van de woordenlijst > (i.v.m. affixcompressie) Helemaal mee eens! Op die manier kan ook relatief eenvoudig worden bepaald of bepaalde flexvormen ontbreken. Een regelmatig werkwoord heeft een bepaald aantal flexvormen. Bijvoorbeeld: spelen, speel, speelt, speelde, speelden, gespeeld, spelend. De deelwoorden kunnen ook nog als bijvoeglijk naamwoord worden gebruikt. In bepaalde gevallen komt er dan een "e" bij: gespeelde en spelende. Tot slot is er nog de weinig voorkomende aanvoegende wijs: spele > > 6) Woorden die minder gebruikelijk zijn en gemakkelijk een typefout kan zijn > van een ander correct woord dat veel gebruikelijker is, kunnen we weglaten. Hiervoor dienen we een norm te hanteren. Wanneer is een woord minder gebruikelijk? En wanneer is de kans groot dat het een typefout betreft? Jouw analyse op basis van Levenshtein en Martin Reynaerts methode kan hierbij helpen. > Hier staat dus absoluut niet in dat woorden zonder meer opgenomen worden als > ze goed zijn; we hoeven echt de uiterst ongebruikelijke woorden als > aliëneren niet per se over te nemen. Eens, maar we moeten op basis van (1) de corpuswoordfrequentie en (2) de kans op een typefout een eenduidige, heldere norm stellen. Wie kan een geschikte norm bedenken op basis van deze parameters? -- Vriendelijke groet, Bart Knubben | http://www.knubben.org | http://www.opentaal.org | > http://www.minmen.nl - Een blog over de impact van het Internet op onze maatschappij en publieke sector < _______________________________________________ Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php Juridische voorwaarden: http://opentaal.org/licentie.php |
|
|
Re: Criteria voor opnamen in de nieuwe lijstRuud Baars schreef:
> <div class="moz-text-flowed" style="font-family: -moz-fixed"> > Ik stel minimaal de volgende criteria voor: > > 0) Geconstateerde fouten in de lijst worden gecorrigeerd. > > 1) de basiswoorden moeten al als basiswoord in onze lijst staan. > Dit moet wel, anders verliezen we onze certificeringsstatus voor de > nieuwe lijst. > > 2) De flexvormen moeten bij een van de bovenstaande flexvormen horen. > Dat is inherent aan de certificering. > > 3) We moeten minimaal 1 zin hebben geoogst met het woord (anders hebben > we geen voorbeeld..) Dit getal kan natuurlijk ook hoger worden gekozen. > > 4) Het woord moet minimaal # keer op internet zijn gevonden. We hadden > hier ooit het getal 4 voor, maar dat mag ook wat hoger. > > 5) We houden basiswoord en afgeleiden bij elkaar. Niet alleen is dat > voor de structuur handig, het is ook efficiënt voor de vorming van de > woordenlijst (i.v.m. affixcompressie) > > 6) Woorden die minder gebruikelijk zijn en gemakkelijk een typefout kan > zijn van een ander correct woord dat veel gebruikelijker is, kunnen we > weglaten. > > > Hier staat dus absoluut niet in dat woorden zonder meer opgenomen worden > als ze goed zijn; we hoeven echt de uiterst ongebruikelijke woorden als > aliëneren niet per se over te nemen. > > Bij de eerdere lijst hebben we ook een controle tegen een groter corpus > dan het onze gedaan. Voor de basiswoorden is dus al aan die conditie > voldaan. > > Meer suggesties voor criteria zijn welkom. spellingcorrectieprogramma’s nog veel slimmer gemaakt moeten worden. Ik denk aan een basiswoordenlijst waar enkel de woorden instaan die 90% (80, 70?) van alle teksten vormen, dan aanvullende lijsten met minder voorkomende woorden. Bovendien aparte lijsten met vakspecifieke terminologie (die dan uiteraard overlappend kunnen zijn), die de gebruiker naar keuze kan in- en uitschakelen, en lijsten met minder frequente woorden die echter sterk lijken op frequentere woorden en dus een typefout (brr, volgens mij moet dat toch echt typfout, maar het GB is het er niet mee eens http://www.onzetaal.nl/advies/typfout.php) zouden kunnen zijn. Dan kan bij het voorkomen van die woorden een waarschuwing gegeven worden enz. Allemaal enhancement requests voor Hunspell, veronderstel ik (alhoewel wij al in staat zijn een aantal van die lijsten te produceren!) Totdat dit allemaal mogelijk is, lijken me de suggesties hierboven zeer goed. Om de precieze grenzen te bepalen zullen enkele testjes gedaan moeten worden. Zie ook het README van Kevin’s word list: http://wordlist.sourceforge.net/ Hij bied uitgebreide lijsten aan maar raad ook af om de lijsten boven de 70 te gebruiken voor spellingcontrole, om gelijkaardige redenen. Groet, H. -- Hendrik Maryns Herrenberger Straße 40 D-72070 Tübingen +49707143783 http://tcl.sfs.uni-tuebingen.de/~hendrik/ ================= www.lieverleven.be Hier kan iedereen wat van leren. http://aouw.org Art Of Urban Warfare _______________________________________________ Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php Juridische voorwaarden: http://opentaal.org/licentie.php |
|
|
Re: Re: Criteria voor opnamen in de nieuwe lijstBart Knubben schreef:
>> 5) We houden basiswoord en afgeleiden bij elkaar. Niet alleen is dat voor de >> structuur handig, het is ook efficiënt voor de vorming van de woordenlijst >> (i.v.m. affixcompressie) > Helemaal mee eens! Op die manier kan ook relatief eenvoudig worden > bepaald of bepaalde flexvormen ontbreken. Een regelmatig werkwoord > heeft een bepaald aantal flexvormen. Bijvoorbeeld: spelen, speel, > speelt, speelde, speelden, gespeeld, spelend. De deelwoorden kunnen > ook nog als bijvoeglijk naamwoord worden gebruikt. In bepaalde > gevallen komt er dan een "e" bij: gespeelde en spelende. Tot slot is > er nog de weinig voorkomende aanvoegende wijs: spele stel ik voor de aanvoegende wijs in zijn geheel weg te laten, behalve misschien voor enkele specifieke woorden als ‘zijn’, ‘leven’. H. -- Hendrik Maryns Herrenberger Straße 40 D-72070 Tübingen +49707143783 http://tcl.sfs.uni-tuebingen.de/~hendrik/ ================= www.lieverleven.be Hier kan iedereen wat van leren. http://aouw.org Art Of Urban Warfare _______________________________________________ Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php Juridische voorwaarden: http://opentaal.org/licentie.php |
|
|
|
|
|
Re: Criteria voor opnamen in de nieuwe lijstSimon, Was het expliciet met de TaalUnie afgesproken dat de klemtoonwoorden als flex gezien mochten worden? Ik heb telefonisch vernomen dat ze bete apart kunne worden gehouden en aangeboden (Ongeveer net als met de namen). mvg Ruud Hoi Ruud, Ruud Baars schreef: _______________________________________________ Over de OpenTaal-mailinglist: http://opentaal.org/mailinglist.php Zoeken in het mailinglistarchief: http://opentaal.org/zoeken.php Juridische voorwaarden: http://opentaal.org/licentie.php |
| Free Forum Powered by Nabble | Forum Help |