[Tex-nl] Woorden sorteren

Wilfred van Rooijen wvanrooijen at yahoo.com
Tue May 5 03:01:21 CEST 2015


> Van welke andere projecten heb je ook een dergelijke mening? Hopelijk
> kan ik die ook graag ontkrachten.

(ik parafraseer een beetje :-))  )

 20 december 2013: "ik heb iets met een dictee geknutseld, willen jullie het bekijken en naar CTAN uploaden?"

10 november 2014: "Ik heb iets met fonts gedaan willen jullie er naar kijken en uploaden naar CTAN?"
Ik wil je natuurlijk niet in een slecht daglicht stellen maar dit soort emails wekt mijn wrevel op. Heb je iets te bieden, dan vind ik dat prima maar opmerkingen als "willen jullie er eens naar kijken" wekt de indruk van luiheid en ondeskundigheid.

> Dat sorteren voor woordenboeken, woordenlijsten en dergelijke niet
> triviaal is. Met name software zoals Perl, Python en Java zul je
> expliciet moeten instrueren om het volgens de juiste locale te doen.

> De meeste westerse locales betreft sortering zijn gebaseerd op
> collocatie definities voor Latin-1.

Als de "standaardtalen" het blijkbaar niet goed doen, dan is ofwel de locale niet goed gedefinieerd of er zitten fouten in het programmeerwerk ;-)) . Voor zover ik weet (maar let wel, ik ben geen ervaringsdeskundige) sorteren talen als Python in principe of de volgorde van de karakters zoals gedefinieerd in Unicode, maar de locale-setting kan daarvan afwijken. Mijn computers staan allemaal ingesteld op de Japanse locale, maar die is ook niet eenduidig: Windows gebruikt een andere sortering dan linux (*).

Aan de andere kant, inderdaad, dit soort sorteeralgoritmes zijn  nodig en iemand moet het vuile werk opknappen. En je hebt (inderdaad, en natuurlijk) te maken met het feit dat er eigenlijk geen definities zijn die de lading voor 100% dekken en er zullen altijd uitzonderingen op de regels zijn. Hulde voor het feit dat jullie dit werk willen doen. Ik zou het niet kunnen omdat het me niet voldoende interesseert. 

> Met meer achtergrond; die informatie die daarvoor nodig is, is niet uit
> de schrijfwijze van woord te halen maar is metadata die uit een andere
> collectie moet komen. De collecties waar ik toegang tot heb, en dat zijn
> zeer uitgebreide, zou je dan deels met het sorteeralgoritme mee moeten
> distribueren en dat maakt het lastig.

Maar je zou toch zeggen dat in de linguistiek toch wel bepaalde regels bekend zijn omtrent de fonemen in het Nederlands. "aub" is geen foneem, maar "havo" daarentegen bevat 2 fonemen. Je zou verwachten dat dit soort info beschikbaar is voor een sorteeralgoritme, maar ik begrijp dat ook dit geen sluitende oplossing zal bieden voor alle gevallen. 

Wat betreft het meeleveren van de woordenlijsten, je hoeft toch in feite alleen de afwijkingen mee te leveren? Maar ik begrijp dat het een heel gedoe is om een dergelijke lijst op te stellen.

> Ik hoop dat ik op deze manier een deel van je zorgen weg heb kunnen 
> halen.

Ik maak me geen zorgen hoor. Het is alleen een onderwerp dat mij echt volstrekt niet interesseert. In mijn leven als academicus gebruik ik veel tekstboeken, en iedere index is anders georganiseerd. Voor mij is het van belang dat ik zonder al teveel moeijte het onderwerp kan vinden waar ik naar op zoek ben. Ik begrijp dat voor woordenboeken en dergelijke er waarschijnlijk bijkomende voorwaarden en idealen zijn.

Groeten,Wilfred
(*) voor diegenen die erin geinteresseerd zijn: de "volgorde" in het Japans is in principe als volgt:
- medeklinkers in volgorde: -, k, s, t, n, h, m, y, r, w- binnen iedere medeklinker is de volgorde a, i, u, e, o- de eerste medeklinker is "-", dat betekent afwezigheid van een medeklinker.
Dus sorteren op a, i, u, e, o, ka, ki, ku, ke, ko, sa, si, su, se, so, etc. Niet alle combinaties komen voor (yi, ye, wi, wu, we komen bijvoorbeeld niet voor).

De hiragana en katakana karakters hebben een fonetische waarde en zijn in deze volgorde opgenomen in Unicode. Het gedonder begint natuurlijk met de chinese karakters, want hoe moet je die sorteren? Op uitspraak? Dat is lastig, want de uitspraak van een karakter verschilt van geval tot geval. De volgorde in Unicode gebaseerd is op andere kenmerken dan (alleen) uitspraak. Om een voorbeeld te geven: 東京 Tokyo en 東舞鶴 "higashi Maizuru" worden allebei gesorteerd bij de 東 maar de uitspraak verschilt ;-))
Een van de rare verschillen tussen Windows en linux is dat Windows de Japanse "haakje openen "(" (dat is dus een haakje dat twee posities inneemt) sorteert voor het latijnse alfabet, terwijl linux het sorteert na de "z". Naar mijn ervaring zijn de meeste sorteeralgorithmes redelijk robuust, als je je PC instelt op locale "engels" dan gaat het sorteren van Japanse karakters nog steeds goed.

     On Monday, May 4, 2015 10:25 PM, Pander <pander at users.sourceforge.net> wrote:
   
 

 On 05/04/2015 01:39 PM, Wilfred van Rooijen wrote:
> Ik ben nog niet overtuigd. Zoals een aantal van je eerdere "projecten"
> heeft het (weer) een hoog "ik heb iets geknutseld en nu moeten jullie er
> mee aan de slag"-gehalte. Tenzij ik het volkomen verkeerd begrijp en dan
> hoor ik dat graag.
> 

Beste Wilfred,

Dat heb je zeker verkeerd. Dit is een serieus project waarvan de
uitkomst niet alleen door OpenTaal maar ook een aantal andere
organisaties in Nederland en België die actief zijn Nederlandse
woordenlijsten bezig zijn gebruikt gaat worden.

Bij veel projecten hebben mensen vaak een mening maar is het een
uitdaging ze echt inhoudelijk te betrekken. Dit project heeft hier
http://lists.sf.own-it.nl/pipermail/opentaal/2015-May/thread.html en
buiten de mailinglijst veel al opbouwende discussie en positieve
reacties losgemaakt.

De versie op GitHub wordt nadat al het commentaar is verwerkt refactored
en is momenteel work in progress.


>> De community van Stichting OpenTaal is er mee aan de slag gegaan en het
>> heeft veel inzichten geven.
> 
> Wat voor inzichten dan?


> 
>> 1) Hoe ziet iedereen dit het liefst in een woordenboek, encyclopedie of
>> woordenlijst?
> 
>> 2) Als iemand daar een algoritme voor heeft liggen kan ik dat testen
>> tegen de uitgebreide lijst die wel hebben.
> 
> Ik zou zeggen dat je eerst definieert hoe je dit wil indexeren voordat
> je gaat programmeren. Als je mijn mening wil weten: lekker belangrijk.
> Het gaat er om dat je iets kan vinden, dus als "Nauw van Calais" bij de
> "C" of de "N" te vinden is, is het wat mij betreft prima. En ik kan me
> bijna niet voorstellen dat hier niet al een (de facto) standaardregel
> voor is.

Als uitgangspunt hebben we ook een lijst waarin de algemene eisen in
voorbeelden zijn uitgeschreven.

> 
>> Klopt. Dat komt omdat bij het sorteren van de lijst niet bekent is hoe
>> de uitspraak is. Bijvoorbeeld aub en a.u.b. zouden vooraan bij de A
>> moeten komen en havo gewoon in de lijst. Daar was (geautomatiseerd)
>> geen
>> beginnen aan. Die informatie is soms bekend maar niet volledig en
>> uiteindelijk is de trend vooral om op schrijfwijze te sorteren.
> 
> "het is niet mogelijk in een geautomatiseerd systeem" is altijd een
> zwaktebod - je past het systeem maar aan aan de werkelijkheid en niet
> andersom :-))


De gegevens die nodig zijn om uitzonderingen op afkortingen aan de hand
van de uitspraak te maken, zijn niet in enkele regels code te vangen.
Dus is het niet makkelijk mogelijk. Daarbij komt ook nog eens
auteursrecht bij kijken als delen van die collecties (afgeleid) worden
gebruikt.

> 
>> Daar zijn we bijna tot de conclusie gekomen dat de sort die de locale
>> gebruikt dit zeer netjes doet. Soms heb ik bepaalde kleine requirements
>> te laten vallen omdat je bij de standaard de sortering van de locale
>> blijft. Wel vervelend is dat veel programmeertalen er een heel eigen
>> sortering op nahouden.
> 
> En om de chaos te completeren verzinnen jullie er niet iets anders bij ;-))

Dat hangt af van een paar zaken waar we met de default sortering niet
geheel content zijn, namelijk:
- namen zoals Nauw van Calais
- Griekse letters zoals in λ-calculus
- getallen zoals in 100 eurobiljet t.o.v. 10 eurobiljet

Verder is hier meer te lezen over regionale verschillen:
https://nl.wikipedia.org/wiki/Tussenvoegsel
Wat dit project op gaat leveren zal zowel in Vlaanderen als in
Nederlands bruikbaar moeten zijn.

Meer informatie is te vinden op:
http://taaladvies.net/taal/advies/tekst/87/literatuurlijsten_algemeen/#4

Het project is om te onderzoeken wat er allemaal bestaat, welke eisen en
wensen er zijn, hoe die overeenkomen met de verschillende bestaande
sorteringen, welke wensen we kunnen herformuleren of kunnen laten vallen
om zo veel mogelijk op een bestaande oplossing uit te komen en
*eventueel* goed bediscussieerd, goed onderbouwd en goed gedocumenteerd
een uitbreiding aanbieden op wie daar behoefte aan heeft. Verder houden
we ook de alfabetiseringsprincipes Nederlands aan zoals gebruikt wordt
bij de grote woordenboekuitgeverijen.


Groeten,

Pander

> 
> Groeten,
> Wilfred
> 
> 
> On Monday, May 4, 2015 6:11 PM, Pander <pander at users.sourceforge.net> wrote:
> 
> 
> 
>    > Ik heb de site even bekeken - sorteer je "van Rooijen" bij de "R"
>    > (correct in NL) of the "V"? Zijn daar nog regionale verschillen in
>    > tussen Nederlands en Vlaams?
> 
>    Eigennamen komen in de lijst van de Taalunie die te doorzoeken is op
>    http://woordenlijst.org <http://woordenlijst.org/>niet voor.
>    OpenTaal heeft die wel een aantal,
>    met name toponiemen zoals:
>    Nauw van Calais
>    Unie van de Comoren
>    huis van Oranje-Nassau
>    hertog van Alva
>    Vlakte van Jizreël
>    Landengte van Panama
>    Grote Van Dale
>    Van Ewijcksluis
> 
>    Je schrijft dat het algorithme geen
>    > onderscheid maakt tussen "woorden" en "afkortingen".
> 
>    In het geval dat je
>    > een lijst hebt als deze: "Aap AAp aap aAP b.v. bv B.V. BV" hoe zou de
>    > gesorteerde lijst er uitzien?
> 
> 
>    Groeten,
> 
>    Pander
> 
>    >
>    > Groeten,
>    > Wilfred
>    >
>    >
>    >
>    > On Friday, May 1, 2015 7:42 PM, Pander
>    <pander at users.sourceforge.net <mailto:pander at users.sourceforge.net>>
>    wrote:
>    >
>    >
>    >
>    >    Hoi allemaal,
>    >
>    >    Mochten jullie interesse hebben in het sorteren van Nederlandse
>    woorden
>    >    voor een woordenboek of -lijst, denk eens mee voor
>    >    https://github.com/OpenTaal/alphabetical-sort/blob/master/README.md
>    >
>    >    Groetjes,
>    >
>    >    Pander
>    >    _______________________________________________
>    >    TeX-NL mailing list
>    >    TeX-NL at ntg.nl <mailto:TeX-NL at ntg.nl> <mailto:TeX-NL at ntg.nl
>    <mailto:TeX-NL at ntg.nl>>
>    >    http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
> 
>    >
>    >
>    >
>    >
>    > _______________________________________________
>    > TeX-NL mailing list
>    > TeX-NL at ntg.nl <mailto:TeX-NL at ntg.nl>
>    > http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
>    >
> 
> 
> 



 
  
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://www.ntg.nl/pipermail/tex-nl/attachments/20150505/58426899/attachment-0001.html>


More information about the TeX-NL mailing list