Ik ben nog niet overtuigd. Zoals een aantal van je eerdere "projecten" heeft het (weer) een hoog "ik heb iets geknutseld en nu moeten jullie er mee aan de slag"-gehalte. Tenzij ik het volkomen verkeerd begrijp en dan hoor ik dat graag.
De community van Stichting OpenTaal is er mee aan de slag gegaan en het heeft veel inzichten geven.
Wat voor inzichten dan?
1) Hoe ziet iedereen dit het liefst in een woordenboek, encyclopedie of woordenlijst?
2) Als iemand daar een algoritme voor heeft liggen kan ik dat testen tegen de uitgebreide lijst die wel hebben.
Ik zou zeggen dat je eerst definieert hoe je dit wil indexeren voordat je gaat programmeren. Als je mijn mening wil weten: lekker belangrijk. Het gaat er om dat je iets kan vinden, dus als "Nauw van Calais" bij de "C" of de "N" te vinden is, is het wat mij betreft prima. En ik kan me bijna niet voorstellen dat hier niet al een (de facto) standaardregel voor is.
Klopt. Dat komt omdat bij het sorteren van de lijst niet bekent is hoe de uitspraak is. Bijvoorbeeld aub en a.u.b. zouden vooraan bij de A moeten komen en havo gewoon in de lijst. Daar was (geautomatiseerd) > geen beginnen aan. Die informatie is soms bekend maar niet volledig en uiteindelijk is de trend vooral om op schrijfwijze te sorteren.
"het is niet mogelijk in een geautomatiseerd systeem" is altijd een zwaktebod - je past het systeem maar aan aan de werkelijkheid en niet andersom :-))
Daar zijn we bijna tot de conclusie gekomen dat de sort die de locale gebruikt dit zeer netjes doet. Soms heb ik bepaalde kleine requirements te laten vallen omdat je bij de standaard de sortering van de locale blijft. Wel vervelend is dat veel programmeertalen er een heel eigen sortering op nahouden.
En om de chaos te completeren verzinnen jullie er niet iets anders bij ;-))
Groeten,Wilfred
On Monday, May 4, 2015 6:11 PM, Pander
Ik heb de site even bekeken - sorteer je "van Rooijen" bij de "R" (correct in NL) of the "V"? Zijn daar nog regionale verschillen in tussen Nederlands en Vlaams?
Eigennamen komen in de lijst van de Taalunie die te doorzoeken is op http://woordenlijst.org niet voor. OpenTaal heeft die wel een aantal, met name toponiemen zoals: Nauw van Calais Unie van de Comoren huis van Oranje-Nassau hertog van Alva Vlakte van Jizreël Landengte van Panama Grote Van Dale Van Ewijcksluis Je schrijft dat het algorithme geen
onderscheid maakt tussen "woorden" en "afkortingen".
In het geval dat je
een lijst hebt als deze: "Aap AAp aap aAP b.v. bv B.V. BV" hoe zou de gesorteerde lijst er uitzien?
Groeten, Pander
Groeten, Wilfred
On Friday, May 1, 2015 7:42 PM, Pander
wrote: Hoi allemaal,
Mochten jullie interesse hebben in het sorteren van Nederlandse woorden voor een woordenboek of -lijst, denk eens mee voor https://github.com/OpenTaal/alphabetical-sort/blob/master/README.md
Groetjes,
Pander _______________________________________________ TeX-NL mailing list TeX-NL@ntg.nl mailto:TeX-NL@ntg.nl http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
_______________________________________________ TeX-NL mailing list TeX-NL@ntg.nl http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl