Ik ben nog niet overtuigd. Zoals een aantal van je eerdere "projecten" heeft het (weer) een hoog "ik heb iets geknutseld en nu moeten jullie er mee aan de slag"-gehalte. Tenzij ik het volkomen verkeerd begrijp en dan hoor ik dat graag.

> De community van Stichting OpenTaal is er mee aan de slag gegaan en het
> heeft veel inzichten geven.

Wat voor inzichten dan?

> 1) Hoe ziet iedereen dit het liefst in een woordenboek, encyclopedie of
> woordenlijst?

> 2) Als iemand daar een algoritme voor heeft liggen kan ik dat testen
> tegen de uitgebreide lijst die wel hebben.

Ik zou zeggen dat je eerst definieert hoe je dit wil indexeren voordat je gaat programmeren. Als je mijn mening wil weten: lekker belangrijk. Het gaat er om dat je iets kan vinden, dus als "Nauw van Calais" bij de "C" of de "N" te vinden is, is het wat mij betreft prima. En ik kan me bijna niet voorstellen dat hier niet al een (de facto) standaardregel voor is.

> Klopt. Dat komt omdat bij het sorteren van de lijst niet bekent is hoe
> de uitspraak is. Bijvoorbeeld aub en a.u.b. zouden vooraan bij de A
> moeten komen en havo gewoon in de lijst. Daar was (geautomatiseerd)
> geen
> beginnen aan. Die informatie is soms bekend maar niet volledig en
> uiteindelijk is de trend vooral om op schrijfwijze te sorteren.

"het is niet mogelijk in een geautomatiseerd systeem" is altijd een zwaktebod - je past het systeem maar aan aan de werkelijkheid en niet andersom :-))

> Daar zijn we bijna tot de conclusie gekomen dat de sort die de locale
> gebruikt dit zeer netjes doet. Soms heb ik bepaalde kleine requirements
> te laten vallen omdat je bij de standaard de sortering van de locale
> blijft. Wel vervelend is dat veel programmeertalen er een heel eigen
> sortering op nahouden.

En om de chaos te completeren verzinnen jullie er niet iets anders bij ;-))

Groeten,
Wilfred


On Monday, May 4, 2015 6:11 PM, Pander <pander@users.sourceforge.net> wrote:


> Ik heb de site even bekeken - sorteer je "van Rooijen" bij de "R"
> (correct in NL) of the "V"? Zijn daar nog regionale verschillen in
> tussen Nederlands en Vlaams?

Eigennamen komen in de lijst van de Taalunie die te doorzoeken is op
http://woordenlijst.org niet voor. OpenTaal heeft die wel een aantal,
met name toponiemen zoals:
Nauw van Calais
Unie van de Comoren
huis van Oranje-Nassau
hertog van Alva
Vlakte van Jizreƫl
Landengte van Panama
Grote Van Dale
Van Ewijcksluis

Je schrijft dat het algorithme geen
> onderscheid maakt tussen "woorden" en "afkortingen".

In het geval dat je
> een lijst hebt als deze: "Aap AAp aap aAP b.v. bv B.V. BV" hoe zou de
> gesorteerde lijst er uitzien?


Groeten,

Pander

>
> Groeten,
> Wilfred
>
>
>
> On Friday, May 1, 2015 7:42 PM, Pander <pander@users.sourceforge.net> wrote:
>
>
>
>    Hoi allemaal,
>
>    Mochten jullie interesse hebben in het sorteren van Nederlandse woorden
>    voor een woordenboek of -lijst, denk eens mee voor
>    https://github.com/OpenTaal/alphabetical-sort/blob/master/README.md
>
>    Groetjes,
>
>    Pander
>    _______________________________________________
>    TeX-NL mailing list
>    TeX-NL@ntg.nl <mailto:TeX-NL@ntg.nl>
>    http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl

>
>
>
>
> _______________________________________________
> TeX-NL mailing list
> TeX-NL@ntg.nl
> http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
>