[Tex-nl] Woorden sorteren

Pander pander at users.sourceforge.net
Mon May 4 15:25:33 CEST 2015


On 05/04/2015 01:39 PM, Wilfred van Rooijen wrote:
> Ik ben nog niet overtuigd. Zoals een aantal van je eerdere "projecten"
> heeft het (weer) een hoog "ik heb iets geknutseld en nu moeten jullie er
> mee aan de slag"-gehalte. Tenzij ik het volkomen verkeerd begrijp en dan
> hoor ik dat graag.
> 

Beste Wilfred,

Dat heb je zeker verkeerd. Dit is een serieus project waarvan de
uitkomst niet alleen door OpenTaal maar ook een aantal andere
organisaties in Nederland en België die actief zijn Nederlandse
woordenlijsten bezig zijn gebruikt gaat worden.

Bij veel projecten hebben mensen vaak een mening maar is het een
uitdaging ze echt inhoudelijk te betrekken. Dit project heeft hier
http://lists.sf.own-it.nl/pipermail/opentaal/2015-May/thread.html en
buiten de mailinglijst veel al opbouwende discussie en positieve
reacties losgemaakt.

De versie op GitHub wordt nadat al het commentaar is verwerkt refactored
en is momenteel work in progress.

Van welke andere projecten heb je ook een dergelijke mening? Hopelijk
kan ik die ook graag ontkrachten.

>> De community van Stichting OpenTaal is er mee aan de slag gegaan en het
>> heeft veel inzichten geven.
> 
> Wat voor inzichten dan?

Dat sorteren voor woordenboeken, woordenlijsten en dergelijke niet
triviaal is. Met name software zoals Perl, Python en Java zul je
expliciet moeten instrueren om het volgens de juiste locale te doen.

De meeste westerse locales betreft sortering zijn gebaseerd op
collocatie definities voor Latin-1.

> 
>> 1) Hoe ziet iedereen dit het liefst in een woordenboek, encyclopedie of
>> woordenlijst?
> 
>> 2) Als iemand daar een algoritme voor heeft liggen kan ik dat testen
>> tegen de uitgebreide lijst die wel hebben.
> 
> Ik zou zeggen dat je eerst definieert hoe je dit wil indexeren voordat
> je gaat programmeren. Als je mijn mening wil weten: lekker belangrijk.
> Het gaat er om dat je iets kan vinden, dus als "Nauw van Calais" bij de
> "C" of de "N" te vinden is, is het wat mij betreft prima. En ik kan me
> bijna niet voorstellen dat hier niet al een (de facto) standaardregel
> voor is.

Als uitgangspunt hebben we ook een lijst waarin de algemene eisen in
voorbeelden zijn uitgeschreven.

> 
>> Klopt. Dat komt omdat bij het sorteren van de lijst niet bekent is hoe
>> de uitspraak is. Bijvoorbeeld aub en a.u.b. zouden vooraan bij de A
>> moeten komen en havo gewoon in de lijst. Daar was (geautomatiseerd)
>> geen
>> beginnen aan. Die informatie is soms bekend maar niet volledig en
>> uiteindelijk is de trend vooral om op schrijfwijze te sorteren.
> 
> "het is niet mogelijk in een geautomatiseerd systeem" is altijd een
> zwaktebod - je past het systeem maar aan aan de werkelijkheid en niet
> andersom :-))

Met meer achtergrond; die informatie die daarvoor nodig is, is niet uit
de schrijfwijze van woord te halen maar is metadata die uit een andere
collectie moet komen. De collecties waar ik toegang tot heb, en dat zijn
zeer uitgebreide, zou je dan deels met het sorteeralgoritme mee moeten
distribueren en dat maakt het lastig.

De gegevens die nodig zijn om uitzonderingen op afkortingen aan de hand
van de uitspraak te maken, zijn niet in enkele regels code te vangen.
Dus is het niet makkelijk mogelijk. Daarbij komt ook nog eens
auteursrecht bij kijken als delen van die collecties (afgeleid) worden
gebruikt.

> 
>> Daar zijn we bijna tot de conclusie gekomen dat de sort die de locale
>> gebruikt dit zeer netjes doet. Soms heb ik bepaalde kleine requirements
>> te laten vallen omdat je bij de standaard de sortering van de locale
>> blijft. Wel vervelend is dat veel programmeertalen er een heel eigen
>> sortering op nahouden.
> 
> En om de chaos te completeren verzinnen jullie er niet iets anders bij ;-))

Dat hangt af van een paar zaken waar we met de default sortering niet
geheel content zijn, namelijk:
- namen zoals Nauw van Calais
- Griekse letters zoals in λ-calculus
- getallen zoals in 100 eurobiljet t.o.v. 10 eurobiljet

Verder is hier meer te lezen over regionale verschillen:
https://nl.wikipedia.org/wiki/Tussenvoegsel
Wat dit project op gaat leveren zal zowel in Vlaanderen als in
Nederlands bruikbaar moeten zijn.

Meer informatie is te vinden op:
http://taaladvies.net/taal/advies/tekst/87/literatuurlijsten_algemeen/#4

Het project is om te onderzoeken wat er allemaal bestaat, welke eisen en
wensen er zijn, hoe die overeenkomen met de verschillende bestaande
sorteringen, welke wensen we kunnen herformuleren of kunnen laten vallen
om zo veel mogelijk op een bestaande oplossing uit te komen en
*eventueel* goed bediscussieerd, goed onderbouwd en goed gedocumenteerd
een uitbreiding aanbieden op wie daar behoefte aan heeft. Verder houden
we ook de alfabetiseringsprincipes Nederlands aan zoals gebruikt wordt
bij de grote woordenboekuitgeverijen.

Ik hoop dat ik op deze manier een deel van je zorgen weg heb kunnen halen.

Groeten,

Pander

> 
> Groeten,
> Wilfred
> 
> 
> On Monday, May 4, 2015 6:11 PM, Pander <pander at users.sourceforge.net> wrote:
> 
> 
> 
>     > Ik heb de site even bekeken - sorteer je "van Rooijen" bij de "R"
>     > (correct in NL) of the "V"? Zijn daar nog regionale verschillen in
>     > tussen Nederlands en Vlaams?
> 
>     Eigennamen komen in de lijst van de Taalunie die te doorzoeken is op
>     http://woordenlijst.org <http://woordenlijst.org/>niet voor.
>     OpenTaal heeft die wel een aantal,
>     met name toponiemen zoals:
>     Nauw van Calais
>     Unie van de Comoren
>     huis van Oranje-Nassau
>     hertog van Alva
>     Vlakte van Jizreël
>     Landengte van Panama
>     Grote Van Dale
>     Van Ewijcksluis
> 
>     Je schrijft dat het algorithme geen
>     > onderscheid maakt tussen "woorden" en "afkortingen".
> 
>     In het geval dat je
>     > een lijst hebt als deze: "Aap AAp aap aAP b.v. bv B.V. BV" hoe zou de
>     > gesorteerde lijst er uitzien?
> 
> 
>     Groeten,
> 
>     Pander
> 
>     >
>     > Groeten,
>     > Wilfred
>     >
>     >
>     >
>     > On Friday, May 1, 2015 7:42 PM, Pander
>     <pander at users.sourceforge.net <mailto:pander at users.sourceforge.net>>
>     wrote:
>     >
>     >
>     >
>     >    Hoi allemaal,
>     >
>     >    Mochten jullie interesse hebben in het sorteren van Nederlandse
>     woorden
>     >    voor een woordenboek of -lijst, denk eens mee voor
>     >    https://github.com/OpenTaal/alphabetical-sort/blob/master/README.md
>     >
>     >    Groetjes,
>     >
>     >    Pander
>     >    _______________________________________________
>     >    TeX-NL mailing list
>     >    TeX-NL at ntg.nl <mailto:TeX-NL at ntg.nl> <mailto:TeX-NL at ntg.nl
>     <mailto:TeX-NL at ntg.nl>>
>     >    http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
> 
>     >
>     >
>     >
>     >
>     > _______________________________________________
>     > TeX-NL mailing list
>     > TeX-NL at ntg.nl <mailto:TeX-NL at ntg.nl>
>     > http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
>     >
> 
> 
> 



More information about the TeX-NL mailing list